视觉transformer图片处理思路

最新推荐文章于 2024-08-22 21:01:58 发布

haohulala

最新推荐文章于 2024-08-22 21:01:58 发布

阅读量9.6k

点赞数 15

分类专栏：计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haohulala/article/details/115861082

版权

我们知道，transformer要求将图片分为patch，然后输入网络进行计算，那么我们就需要将二维的图片处理成一维的embeding形式，今天我来给大家介绍一下图片处理的思路。

我们演示一下处理下面这张图片

我们将图片按照16*16的大小进行分片，得到的结果如下图所示

接下来我们需要将patch变成tensor。在此之前先介绍一下传统CNN图片处理和transformer图片处理之间的区别

我们可以看到，传统CNN图片处理得到的向量是三维的，而transformer图片处理得到的向量是二维的，其中num表示一张图片分片数量（也就是分成多少个patch），第二个维度中patch*patch表示每个patch的面积，channel表示通道数。

当我们训练网络的时候，通常需要将数据加载成batch的形式，一个batch里面通常包含多张图片，所以数据格式如下所示

最低0.47元/天解锁文章

关注

15
点赞
踩
79

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。