![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
transformer在cv领域的应用
文章平均质量分 56
用于记录一些transformer在cv领域的新应用,学习心得。
易大飞
梦想贵在坚持!
展开
-
5. VOLO: Vision Outlooker for Visual Recognition
VOLO的整体流程很简单:主要分为两个阶段,第一个阶段使用outlookattention + MLP获取图像特征,第二阶段使用普通attention + MLP获取图像特征,对此时获取的图像特征再执行classAttention提取分类token特征,最后进行类别划分。outlookattention (unfold + matmul + fold操作)...原创 2022-01-05 19:19:36 · 1954 阅读 · 0 评论 -
1. attention is all in need
在视频和github中有相关作者非常详细的讲解,感觉受益匪浅,因此学习记录。讲解视频:从中文Transformer到BERT的模型精讲,以及基于BERT情感分类实战_哔哩哔哩_bilibili视频笔记 github:https://github.com/aespresso/a_journey_into_math_of_ml/blob/master/03_transformer_tutorial_1st_part/transformer_1.ipynb...原创 2021-11-15 21:03:31 · 298 阅读 · 0 评论 -
2. vit——vision transformer
了解vit之前可以先看论文 attention is all in need,主要看论文中transformer中的encode和decode部分。在vit中主要应用了transformer的encode部分。vit整体的网络框架结构图vit原理讲解的很好:ViT和DeiT的原理与使用 - 知乎vit原理:把图像使用patch(p*p*c),分隔为N等份。每份拉成一维向量D。N等份就有N*D维度。因为分隔图片的patch尺寸可能会拉成很长的一维向量(比如patch尺寸为32,3通道。原创 2021-11-15 21:02:19 · 2618 阅读 · 0 评论 -
3. deit——Training data-efficient image transformers & distillation through
deit是vit的改进,使用的网络框架基本一致。主要参考:ViT和DeiT的原理与使用 - 知乎参考:DeiT:使用Attention蒸馏Transformer知识蒸馏中的教师网络,可以使用其他非transformer形式的网络结构,比如卷积网络(resnet,efficientnet)等。个人总结:deit和vit形式一直,在网路结构中多了一个distillation token,类似于class token的形式。distillation toke原创 2021-11-15 21:01:46 · 2996 阅读 · 0 评论 -
4. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
论文:https://arxiv.org/abs/2103.14030分类代码:https://github.com/microsoft/Swin-Transformer检测代码:https://github.com/SwinTransformer/Swin-Transformer-Object-Detection语义分割代码:https://github.com/SwinTransformer/Swin-Transformer-Semantic-Segmentation摘要:作者.原创 2021-04-21 20:36:38 · 393 阅读 · 0 评论