![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文阅读
文章平均质量分 64
GlassySky0816
xuxu:kaggle Competitions Master(xuxu_sky)
展开
-
Vision Transformer:用于图像识别的Transformer
整体导读:尽管transformer体系结构已成为自然语言处理任务的实际标准,但其在计算机视觉中的应用仍然受到限制。在视觉上,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时将其整体结构保持在适当的位置。2020年10月22日,谷歌人工智能研究院Alexey Dosovitskiy, Lucas Beyer等研究员将Transformer应用到图像识别上并在顶会“Computer Vision and Pattern Recognition(CVPR)”上发表一篇题为“An Image原创 2021-05-09 22:22:44 · 3868 阅读 · 6 评论 -
MLP-Mixer: 基于多层感知机体系结构的图像识别网络
整体导读:卷积神经网络(CNNs)是计算机视觉的主流模型,近年来,基于注意力的网络,如vision transformer也得到了广泛的应用。2021年3月4日,谷歌人工智能研究院Ilya Tolstikhin, Neil Houlsby等人研究员提出一种基于多层感知机结构的MLP-Mixer并在顶会“Computer Vision and Pattern Recognition(CVPR)”上发表一篇题为“MLP-Mixer: An all-MLP Architecture for Vision”的文原创 2021-05-09 22:17:44 · 956 阅读 · 3 评论