关于 Embedding 的个人粗略见解

阿航的博客

已于 2024-09-13 14:21:09 修改

阅读量660

点赞数 8

分类专栏：笔记文章标签： Embedding

于 2024-09-13 11:00:54 首次发布

本文链接：https://blog.csdn.net/qq_42052733/article/details/142205307

版权

笔记专栏收录该内容

21 篇文章 0 订阅

订阅专栏

首先举一个简单的例子：我爱吃饭。

如何将 “我爱吃饭” 这句话转化为可供神经网络输入的数值向量呢？

最传统的方法就是通过 one-hot 编码，用一维向量分别表示 “我”，“爱”，“吃”，“饭” 这四个字（token），它们分别被编码为:

我：[ 1 0 0 0 ]
爱：[ 0 1 0 0 ]
吃：[ 0 0 1 0 ]
饭：[ 0 0 0 1 ]

最终 “我爱吃饭” 这句话就被编码为一个特征矩阵，且这个矩阵唯一表示这句话。

但是 one-hot 编码存在较大的局限性：

每个 token 编码得到的维度大小必须与所有 token 的个数保持一致，有 n 个 token，向量维度就为 n，导致 token 数量较多时，出现维度爆炸模型无法正常训练。
由于特征矩阵中的数值大部分都为 0，最终得到的是稀疏向量，导致模型很难学习到对于结果预测真正有效的信息。

为了解决上述问题，Embedding（嵌入层）随之而来。Embedding，在某种程度上可以理解为，就是用来降维的，而降维的原理就是矩阵乘法。

1 降维

假设存在一个维度为 4 x 2 的系数矩阵：

[ w1 w2 ]
[ w3 w4 ]
[ w5 w6 ]
[ w7 w8 ]

“我爱吃饭” 对应 onehot 编码得到的稀疏特征矩阵（4 x 4）经过 Embedding 层后得到一个维度为 4 x 2 的稠密矩阵：

[ y1 y2 ]
[ y3 y4 ]
[ y5 y6 ]
[ y7 y8 ]

也就是说，经过 Embedding 层，一个维度为 4 x 4 的稀疏矩阵转化为了一个维度为 4 x 2 的稠密矩阵，做到了降维的同时丰富了特征。

2 特征扩充

目前大多数 token 的编码方法不采用 one-hot，而是采用字典（dictionary）或语料库（corpus）为每个token 分配一个唯一索引。例如存在一个字典/语料库：

他	0
我	1
爱	2
吃	3
你	4
饭	5
...	...

那么 “我爱吃饭” 就可以表示为一维向量 [ 1 2 3 5 ]，而 “他爱吃饭”表示为 [ 0 2 3 5 ]，“你爱吃饭” 表示为 [ 4 2 3 5 ]，可以明显地发现三者的特征向量过于相似了（即使它们的语义不同）。在这种情况下，Embedding 层可用于升维，将某些特征进行放大，或将一些相似特征区分开来。

同样假设存在一个维度为 4 x 8 的系数矩阵：