从特征检测器到视觉转换器：卷积神经网络的时代到此结束了吗？

最新推荐文章于 2024-09-07 00:00:00 发布

「已注销」

最新推荐文章于 2024-09-07 00:00:00 发布

阅读量471

点赞数

文章标签：卷积神经网络计算机视觉人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duxinshuxiaobian/article/details/111659144

版权

本文探讨了卷积神经网络在计算机视觉领域的局限性，如无法编码相对空间信息和池化层的问题。视觉转换器（ViT）作为一种新方法，通过自我注意的概念处理图像数据，展现了在效率和准确性上的优势。尽管卷积神经网络仍适用于某些任务，但转换器在自然语言处理和计算机视觉中的潜力不容忽视，预示着领域内的新趋势。

摘要由CSDN通过智能技术生成

全文共1958字，预计学习时长5分钟

图源：unsplash

近十年来，卷积神经网络一直在全球计算机视觉研究领域发挥着主导作用。但研究者们正在提出一种新方法，想要利用转换器的功能赋予图像更深层的意义。

转换器最初是为自然语言处理任务而设计的，主攻神经网络机器翻译。后来，谷歌研究院的阿列克谢·多索维斯基（Alexey Dosovitskiy）、卢卡斯·拜尔（Lucas Beyer）等人撰写了一篇题目为《一幅图像值得16x16个字符：大规模用于图像识别的转换器》的论文，提出了一种名为视觉转换器（ViT）的架构，该架构可通过转换器处理图像数据。

卷积神经网络（CNN）存在的问题

在深入研究视觉转换器的运行方式之前，厘清卷积神经网络的缺点和根本缺陷很有必要。首先，卷积神经网络无法编码相对空间信息。也就是说，它仅关注于检测某些特征，而忽略了相对空间位置。

上面两幅图像都会被识别为人脸，因为卷积神经网络只关注输入图像中是否存在某些特征，而忽略了它们相对于彼此的位置。

卷积神经网络的另一个主要缺陷是池化层。池化层会丢失很多有用的信息，比如最活跃的特征检测器的准确位置。换句话说，它能检测到某些特征，但却无法传达其在图像中的准确位置。

转换器简介

从本质上说，转换器应用了自我注意的概念。这个概念可以分为两部分：自我和注意。注意指的仅仅是可训练的权重，它可以模拟输入句子中各部分的重要程度。

假设输入了一个句子，它会观察句子中的每个单词，并将该单词在句子中的位置与同一句子中所有单词（包括该单词在内）的位置进行比较。所以说，转换器应用了自我注意的概念。转换器根据这些位置线索计算分数，然后用这些线索更好地编码句子的语义或

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。