特征图与token的区别以及两者之间的转换

Nancy-sn

于 2024-12-30 16:20:38 发布

阅读量454

点赞数 5

分类专栏：论文知识点文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mariodf/article/details/144828922

版权

论文知识点专栏收录该内容

9 篇文章

订阅专栏

1. 特征图与token的区别：

特征图（Feature Map）：
- 特征图通常是卷积神经网络（CNN）中生成的张量，例如 H×W×CH \times W \times CH×W×C，其中：
  - HHH 和 WWW 分别是图像的高度和宽度（或说特征图的尺寸）。
  - CCC 是通道数（channels），即每个像素位置的特征数量。
- 特征图通常表示图像中不同局部区域的特征，通过卷积操作从原始图像中提取的空间信息。
Token：
- 在 Transformer 中，token 通常是向量，表示数据中某个单位的抽象特征（例如一个单词、一个图像的块、一个图像的关键点等）。
- 这些 token 是通过 嵌入（Embedding） 操作从特征图或者原始输入数据中提取出来的，每个 token 是一个固定维度的向量。
- 在图像处理任务中，例如在 Vision Transformer（ViT）中，每个 token 可以表示图像中的一个 patch（小块）或者 关键点，其维度是一个固定大小的向量。

2. 特征图和token的转换：

通常，特征图 和 token 的转换是通过 展平（Flattening） 和 嵌入（Embedding） 等操作来完成的。具体来说：

从特征图到token：
从token到特征图：

3. 实例说明：

假设你正在处理一张 224×224 的图片，并希望将其转化为 token 以便送入 Transformer 模型：

特征图的生成：
展平和token化：
嵌入（Embedding）：

4. 总结：

特征图（Feature Map） 是一个张量，通常表示图像或视频的局部特征，维度为 H×W×C。
Token 是一个向量，表示图像或其他数据的基本单位（如关键点、图像块等）。在 Transformer 模型中，token 是通过特征图的展平和嵌入操作得到的。
特征图 和 token 可以通过展平和嵌入等方式进行转换，特别是在计算机视觉中的 Transformer 模型中，token 通常是通过卷积神经网络生成的特征图展平得到的。

特征图和 token 是互相关联的概念，前者通常用于局部特征的表示，后者则用于 Transformer 中全局信息的建模和交互。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。