美团提出基于隐式条件位置编码的Transformer，性能优于ViT和DeiT

最新推荐文章于 2024-05-12 11:28:25 发布

酔清风

最新推荐文章于 2024-05-12 11:28:25 发布

阅读量408

点赞数 1

分类专栏： python 文章标签：机器学习人工智能算法 python

本文链接：https://blog.csdn.net/weixin_42686892/article/details/114646181

版权

美团研究团队提出了一种新型隐式条件位置编码（CPE）方法，解决了视觉Transformer处理不同尺寸输入的问题。CPVT（Conditional Position encodings Visual Transformer）模型在ImageNet上的性能优于ViT和DeiT，且能适应不同输入大小，无需重新fine-tune。

摘要由CSDN通过智能技术生成

Transformer 跨界计算机视觉的热潮之下，有一个问题需要解决：如何像 CNN 一样直接处理不同尺寸的输入？对此，美团提出了一种新型隐式条件位置编码方法，基于该方法的 CPVT 模型性能优于 ViT 和 DeiT。

**机器之心发布，**机器之心编辑部。

随着 Facebook 的 DETR （ECCV 2020）[2] 和谷歌的 ViT （ICLR 2021）[3] 的提出，Transformer 在视觉领域的应用开始迅速升温，成为当下视觉研究的第一热点。但视觉 Transformer 受限于固定长度的位置编码，不能像 CNN 一样直接处理不同的输入尺寸，这在很大程度上限制了视觉 Transformer 的应用，因为很多视觉任务，如检测，需要在测试时动态改变输入大小。

一种解决方案是对 ViT 中位置编码进行插值，使其适应不同的图片大小，但这种方案需要重新 fine-tune 模型，否则结果会变差。

最近，美团提出了一种用于视觉 Transformer 的隐式条件位置编码 CPE [1]，放宽了显式位置编码给输入尺寸带来的限制，使得 Transformer 便于处理不同尺寸的输入。实验表明，应用了 CPE 的 Transformer 性能优于 ViT 和 DeiT。

美团提出基于隐式条件位置编码的Transformer