#今日论文推荐# 美图公司联合开发首个类似MLP架构的视频学习模型MorphMLP，精度更高的同时计算量最高可节省50%

wwwsxn

已于 2022-08-25 22:20:45 修改

阅读量183

点赞数

分类专栏：深度学习文章标签：深度学习计算机视觉人工智能

于 2022-08-25 22:20:38 首次发布

原文链接：https://www.aminer.cn/research_report/630775427cb68b460f0bc2c3

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# 美图公司联合开发首个类似MLP架构的视频学习模型MorphMLP，精度更高的同时计算量最高可节省50%

在机器学习领域，有着前向结构的多层感知器（Multilayer Perceptron，MLP）是近年来新兴的一种人工神经网络。简单来说，MLP 采用的是类似于人类神经系统的工作模式来进行学习和预测：在训练时，该结构会在学习之后通过权重来储存数据，再利用算法来将权重整理，从而减少整个过程的误差。尤其是在繁杂问题的处理上，MLP 的优势尤为明显。
由于这些优势，MLP 类似架构在图像识别领域取得了许多成功。尤其最近许多研究发现，此前在该领域以 ViT（Vision Transformer，视觉变压器）为首的基于注意力的架构并非必要，也可以被简单的 MLP 所取代。
在此之前，MLP 类似似架构的应用仍然局限于图像领域，该架构尽管在视频领域有着广泛的应用前景，但文献中此前尚未有这样的方法。这其中的原因之一主要有从空间角度和时间角度的两个原因。
从空间角度，此前的 MLP 类架构在对于细节的渐进式理解方面仍不甚理想。例如下图中，中间一行为著名的基于 MLP 的模型 ViP 的结果的可视化，可以看出它没有捕捉到许多关键细节。这是由于此前的模型大多是在全局上进行 MLP 操作，从而忽略的视觉表示的分层学习造成的。如何在每一帧中达到足够的语义理解水平，是亟待解决的难点之一。

论文题目：MorphMLP: An Efficient MLP-Like Backbone for Spatial-Temporal Representation Learning
详细解读：https://www.aminer.cn/research_report/630775427cb68b460f0bc2c3https://www.aminer.cn/research_report/630775427cb68b460f0bc2c3
AMiner链接：https://www.aminer.cn/?f=cs

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。