【Transformer】基于vision transformer（ViT）实现猫狗二分类项目实战

BILLY BILLY

已于 2024-07-03 16:59:13 修改

阅读量1.2k

点赞数 27

分类专栏： BEV感知文章标签： transformer

于 2024-05-03 04:20:15 首次发布

本文链接：https://blog.csdn.net/m0_51579041/article/details/138405895

版权

BEV感知专栏收录该内容

18 篇文章 2 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

文章目录

一、vision transformer（ViT）结构解释
二、Patch Embedding部分
三、Transformer Encoder部分
- (1) Multi-head Self-Attention
- (2) encoder block
四、head部分
五、vision transformer（ViT）完整代码
六、基于vision transformer（ViT）实现猫狗二分类项目实战

一、vision transformer（ViT）结构解释

vision transformer（ViT）结构大致流程如下图

+------------+       +--------------+
|   Input    | ----> |    Patch     |
+------------+       +--------------+
                            |
                            v
                      +-------+
                      |  Embed  |
                      +-------+
                            |
                            v
                +-------------------+
                |   Transformer     |
                +-------------------+
                            |
                            v
                      +-------+
                      |  Pool |
                      +-------+
                            |
                            v

了解本专栏