Patch embed 的映射矩阵多大？

最新推荐文章于 2024-10-01 23:00:34 发布

不当菜鸡的程序媛

最新推荐文章于 2024-10-01 23:00:34 发布

阅读量344

点赞数 8

分类专栏：学习记录文章标签：矩阵机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vivi_cin/article/details/140162695

版权

学习记录专栏收录该内容

105 篇文章 0 订阅

订阅专栏

假设我们有一个图像，其大小为 (H \times W \times C)，其中 (H) 是图像的高度，(W) 是图像的宽度，(C) 是图像的通道数（例如，RGB 图像的通道数为 3）。

将图像划分成 patches:
- 假设我们将图像划分成大小为 (P \times P) 的 patches。
- 这样我们就会得到 (\frac{H}{P} \times \frac{W}{P}) 个 patches。
将每个 patch 展开成一个向量:
- 每个 patch 的大小为 (P \times P \times C)，展开成一个长度为 (P^2 \cdot C) 的向量。
应用线性嵌入（Linear Embedding）:
- 使用一个线性变换将每个长度为 (P^2 \cdot C) 的向量映射到一个固定的维度，这个维度通常被称为 embedding dimension，记为 (D)。
- 这个线性变换通常用一个权重矩阵来表示，形状为 (D \times (P^2 \cdot C))。

所以，总结一下，patch embedding layer 的大小和形状如下：

输入大小：每个 patch 的大小为 (P^2 \cdot C)。
输出大小：embedding dimension (D)。
权重矩阵的形状：(D \times (P^2 \cdot C))。

如果具体举个例子，假设一个图像的大小为 (224 \times 224 \times 3)，每个 patch 的大小为 (16 \times 16)，embedding dimension (D) 为 768。

图像被划分成 (\frac{224}{16} \times \frac{224}{16} = 14 \times 14) 个 patches。
每个 patch 的大小为 (16 \times 16 \times 3 = 768)。
patch embedding layer 的权重矩阵大小为 (768 \times 768)。

不当菜鸡的程序媛

关注

8
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。