词向量
在 CV 领域,需要将数字图像转换为矩阵/张量进行神经网络计算;而在 NLP 领域,自然语言通常以文本形式存在,同样需要将文本数据转换为一系列的数值方便计算机进行计算,这里会涉及到词向量的概念,转换的方法通常有:
One-Hot
编码: 一种简单的单词表示方式Word Embedding
: 一种分布式单词表示方式Word2Vec
: 一种词向量的训练方法
One-Hot
编码
One-hot
编码是一种很简单的将单词数值化的方式。对于单词数量为 N 的词表,则需用一个长度为 N 的向量表示一个单词,在这个向量中该单词对应的位置数值为1,其余单词对应的位置数值全部为0。举例如下:
词典: [queen, king, man, woman, boy, girl ]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D7FG0uxf-1681810454990)(…/…/images/llm_basic/one-hot-eg.png)]
上图展示了词典中 6
个单词的 one-hot 编码表示。虽然这个表示还是很简单的,但是其也存在以下问题:
- 现实当中单词数量往往有几十万甚至上百万,这样如果用 one-hot 编码的方式表示单词,其向量维度会很长,且极其稀疏,即高维高稀疏。
- 因为向量之间是正交且点积为 0,