A Survey on Vision Transformer(2/2)

最新推荐文章于 2022-10-10 12:46:27 发布

与光i

最新推荐文章于 2022-10-10 12:46:27 发布

阅读量4.6k

点赞数

文章标签： transformer 深度学习计算机视觉

本文链接：https://blog.csdn.net/dawnyi_yang/article/details/123465468

版权

视频处理

高级
视频动作：Action Transformer、I3D。
视频检索：Shao等人提出借助transformer来学习长程的语义信息关联。Gebeur用多模态的Transformer学习不同特征来表示视频内容。
视频模板识别：MEGA有效的增强了局部和全局信息的聚合用于捕获更多内容信息；Yin等人则是提出一个时-空Transformer有效聚合了时间和空间的信息有效进行3D视频中的目标检测任务。
多任务学习：借助两个在ImageNet上预训练后的网络提取场景特征和目标特征，然后将不同任务的Transformer堆叠起来进行特征融合。
低级视频处理
 帧/视频合成 ：ConvTransforme。
 视频修复：将所有帧作为输入，并行处理，借助空间-时间的对抗损失来进行优化。

多模态任务

VideoBERT中使用CNN先对视频进行预处理，获得表征tokens，随后训练transformer decoder学习视频到文本的表征，从而完成字幕生成的任务。模型还有VisualBERT\VL-BERT。

Efficient Transformer

网络剪枝和网络分解
  相当大一部分attention head在测试时可以被移除，并不会带来显著的性能下降；同时不同层所需的head数目也不同。减少输入patch的冗余性来加速计算，依旧可以有效的捕获特征。
紧凑结构设计
  可以通过使用span-based dynamic convolution来简化self-attention的计算。
  此外还有借助矩阵分解的思路来简化self-attention层的计算；借助NAS自动搜索如何组合不同的components。

计算机视觉

图像分类
visual attention：使用注意力来选择输入图像中相关的位置和区域。
AG-CNN：提出基于计算出的注意力对输入的图像进行裁剪，用裁剪的子区域进行分类。
SE-Net：根据卷积特征计算不同通道的权重。
语义分割
PSANet,OCNet,DANet,CFNet。
目标检测
RelationNet：要特征看做是query然后将其他表征看做要匹配的k。

挑战

仍然需要进一步探索预训练后泛化性能更好、鲁棒性更佳的模型。
Transformer在CV任务中有效的原因仍缺乏可解释性。

与光i

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
A Survey on Vision Transformer(2/2)

视频处理高级视频动作：Action Transformer、I3D。视频检索：Shao等人提出借助transformer来学习长程的语义信息关联。Gebeur用多模态的Transformer学习不同特征来表示视频内容。视频模板识别：MEGA有效的增强了局部和全局信息的聚合用于捕获更多内容信息；Yin等人则是提出一个时-空Transformer有效聚合了时间和空间的信息有效进行3D视频中的目标检测任务。多任务学习：借助两个在ImageNet上预训练后的网络提取场景特征和目标特征，然后将不同任务的Tr
复制链接

扫一扫