#今日论文推荐# 美图公司联合开发首个类似MLP架构的视频学习模型MorphMLP,精度更高的同时计算量最高可节省50%

#今日论文推荐# 美图公司联合开发首个类似MLP架构的视频学习模型MorphMLP,精度更高的同时计算量最高可节省50%

在机器学习领域,有着前向结构的多层感知器 (Multilayer Perceptron,MLP)是近年来新兴的一种人工神经网络。简单来说,MLP 采用的是类似于人类神经系统的工作模式来进行学习和预测:在训练时,该结构会在学习之后通过权重来储存数据,再利用算法来将权重整理,从而减少整个过程的误差。尤其是在繁杂问题的处理上,MLP 的优势尤为明显。
由于这些优势,MLP 类似架构在图像识别领域取得了许多成功。尤其最近许多研究发现,此前在该领域以 ViT(Vision Transformer,视觉变压器)为首的基于注意力的架构并非必要,也可以被简单的 MLP 所取代。
在此之前,MLP 类似似架构的应用仍然局限于图像领域,该架构尽管在视频领域有着广泛的应用前景,但文献中此前尚未有这样的方法。这其中的原因之一主要有从空间角度和时间角度的两个原因。
从空间角度,此前的 MLP 类架构在对于细节的渐进式理解方面仍不甚理想。例如下图中,中间一行为著名的基于 MLP 的模型 ViP 的结果的可视化,可以看出它没有捕捉到许多关键细节。这是由于此前的模型大多是在全局上进行 MLP 操作,从而忽略的视觉表示的分层学习造成的。如何在每一帧中达到足够的语义理解水平,是亟待解决的难点之一。

论文题目:MorphMLP: An Efficient MLP-Like Backbone for Spatial-Temporal Representation Learning
详细解读:https://www.aminer.cn/research_report/630775427cb68b460f0bc2c3icon-default.png?t=M7J4https://www.aminer.cn/research_report/630775427cb68b460f0bc2c3
AMiner链接:https://www.aminer.cn/?f=cs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值