DL-Paper精读：CPVT-可变Position encoding

最新推荐文章于 2024-04-16 13:21:39 发布

星月野

最新推荐文章于 2024-04-16 13:21:39 发布

阅读量1k

点赞数

分类专栏： paper阅读文章标签：计算机视觉机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/li6016265/article/details/114297041

版权

Do We Really Need Explicit Position Encodings for Vision Transformers?

https://arxiv.org/abs/2102.10882

Background

近两年，Transformer结构进军CV领域，并以席卷之势相继攻克了分类，检测，分割等等任务。因为CNN所关注的是有限感受野内的信息，而Transformer的自注意力机制则可以捕获长距离信息，并且根据图像尺寸而动态地调整其感受野，因此Transformer能够在各个任务领域获得相比CNN更高的精度。

Related work and the limit

在传统的NLP任务中，RNN等序列模型，自身便包含了词的位置信息。而Transformer模型采用Attention机制来学习各个词之间的关系，抛弃了它们的位置信息。但在语言理解中，位置信息是非常重要的，因此需要显式地生成position encoding，手动加入各点的位置信息。而对于图像领域的Vision Transformer，二维图像各个patch之间的相对位置关系也对物体的模式理解有重要的作用。

常见的position encoding方式包括绝对位置编码和相对位置编码等。目前常用的一般是绝对位置编码，包括在Transformer中提出的sinusoidal编码方式，以及在GPT，ViT等中所使用的可训练的位置编码等。但是这种绝对位置编码针对特定分辨率的任务，在训练时就会生成固定尺寸的编码，无法处理不同分辨率大小的图片，这极大地妨碍了Transformer地灵活性和更大的应用空间。常见的处理方式是在处理不同分辨率的图像时，对训练好的position enc

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
DL-Paper精读：CPVT-可变Position encoding

Do We Really Need Explicit Position Encodings for Vision Transformers?https://arxiv.org/abs/2102.10882Background近两年，Transformer结构进军CV领域，并以席卷之势相继攻克了分类，检测，分割等等任务。因为CNN所关注的是有限感受野内的信息，而Transformer的自注意力机制则可以捕获长距离信息，并且根据图像尺寸而动态地调整其感受野，因此Transformer能够在各个任务领
复制链接

扫一扫

专栏目录

星月野 CSDN认证博客专家 CSDN认证企业博客

码龄7年

31: 原创

13万+: 周排名

51万+: 总排名

3万+: 访问

: 等级

464: 积分

5: 粉丝

14: 获赞

15: 评论

75: 收藏

私信

关注

热门文章

分类专栏

最新评论

DL-Paper精读：LSTM + Transformer 架构模型
qq_62446823: 有链接吗？可以分享一下吗？
DL-Paper精读：LSTM + Transformer 架构模型
将在外，君命有所不受: 能不能告诉我是那一片github，是temsorflow编的吗？
DL-Paper精读：LSTM + Transformer 架构模型
将在外，君命有所不受: 谢谢您您太强了
DL-Paper精读：LSTM + Transformer 架构模型
m0_56402051: github上有一个transformer-lstm模型，应该是论文的代码，由于没有说明，正在研究网络结构，应该是这个论文改的预测时序的。能用，而且准确率对比lstm确实高了一点点
DL-Paper精读：LSTM + Transformer 架构模型
将在外，君命有所不受: 可以用来预测时间序列吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。