A Survey on Vision Transformer(2/2)

视频处理

高级
视频动作:Action Transformer、I3D。
视频检索:Shao等人提出借助transformer来学习长程的语义信息关联。Gebeur用多模态的Transformer学习不同特征来表示视频内容。
视频模板识别:MEGA有效的增强了局部和全局信息的聚合用于捕获更多内容信息;Yin等人则是提出一个时-空Transformer有效聚合了时间和空间的信息有效进行3D视频中的目标检测任务。
多任务学习:借助两个在ImageNet上预训练后的网络提取场景特征和目标特征,然后将不同任务的Transformer堆叠起来进行特征融合。
低级视频处理

帧/视频合成
:ConvTransforme。

视频修复:将所有帧作为输入,并行处理,借助空间-时间的对抗损失来进行优化。

多模态任务

VideoBERT中使用CNN先对视频进行预处理,获得表征tokens,随后训练transformer decoder学习视频到文本的表征,从而完成字幕生成的任务。模型还有VisualBERT\VL-BERT。

Efficient Transformer

网络剪枝和网络分解


相当大一部分attention head在测试时可以被移除,并不会带来显著的性能下降;同时不同层所需的head数目也不同。减少输入patch的冗余性来加速计算,依旧可以有效的捕获特征。
紧凑结构设计


可以通过使用span-based dynamic convolution来简化self-attention的计算。


此外还有借助矩阵分解的思路来简化self-attention层的计算;借助NAS自动搜索如何组合不同的components。

计算机视觉

图像分类
visual attention:使用注意力来选择输入图像中相关的位置和区域。
AG-CNN:提出基于计算出的注意力对输入的图像进行裁剪,用裁剪的子区域进行分类。
SE-Net:根据卷积特征计算不同通道的权重。
语义分割
PSANet,OCNet,DANet,CFNet。
目标检测
RelationNet:要特征看做是query然后将其他表征看做要匹配的k。

挑战

仍然需要进一步探索预训练后泛化性能更好、鲁棒性更佳的模型。
Transformer在CV任务中有效的原因仍缺乏可解释性。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值