zhy—bupt-CSDN博客

原创【BoTNet】Bottleneck Transformers for Visual Recognition 笔记

Bottleneck Transformers for Visual Recognition摘要BoTNet是backbone，由自注意力机制组成在Resnet最后三个bottleneck中用全局self-attention替代卷积在COCO数据集上44.4%mask AP，49.7%Box AP，图像分类、实例分割、目标检测都有效引言提出的BoTNet为带有bottleneck结构的transformer块在视觉领域使用self-attention有两个问题：1，图片太大怎么输进去；2，

2022-03-04 15:49:06 2499 1

原创【DETR】 DETR :End-to-End Object Detection with Transformers 笔记

DETR :End-to-End Object Detection with Transformers摘要提出了将目标检测视作预测问题的方法将检测pipeline流水化bipartite matching loss与faster rcnn在准确率和速度上相当引言将端到端的思想引入transformer明确两两输入的关系，适用于删除重复预测工作：训练端到端损失函数双向匹配predicted和ground-truth ：matching loss function使用并行decodin

2022-03-04 14:08:27 2452

原创【MTV】Multiview Transformers for Video Recognition 笔记

MTV摘要MTV由独自分开的encoder组成，并通过横向连接做了许多消融实验，结果比单个view的准确度高，计算成本低在五个通用数据集上效果好，在大规模预训练基础上效果更好引言图像领域，采用金字塔形多尺度处理表现好，例如slowfast。但由于pooling和下采样部分时空信息丢失；MTV不依靠金字塔结构获取多尺度信息，构建transformer视频理解模型：慢流用更小的encoder采用不同‘’view‘，从不同维度提取token，再分别进入transformer横向链接

2022-03-03 14:39:07 2088 1

原创【ViViT】ViViT: A Video Vision Transformer 笔记

ViViT摘要：提出时空的token将输入分解以变得高效在小规模数据集上有效训练方法引言：vit 之前只用于大规模，因为缺少一些bias- 文章提出了几个model用于视频分类，pure-transformer- 如何有效地训练模型结论：提出了视频分类4个模型，如何在小数据集上高效管理训练大容量模型未来可以减除对图像预训练模型的依靠ViViT模型：两种embedding video clip方法：-构造的结构：Spatio-temporal attent

2022-03-03 09:55:17 928

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 【BoTNet】Bottleneck Transformers for Visual Recognition 笔记

原创 【DETR】 DETR :End-to-End Object Detection with Transformers 笔记

原创 【MTV】Multiview Transformers for Video Recognition 笔记

原创 【ViViT】ViViT: A Video Vision Transformer 笔记

空空如也

空空如也

原创【BoTNet】Bottleneck Transformers for Visual Recognition 笔记

原创【DETR】 DETR :End-to-End Object Detection with Transformers 笔记

原创【MTV】Multiview Transformers for Video Recognition 笔记

原创【ViViT】ViViT: A Video Vision Transformer 笔记