预训练语言模型（二）：词向量和Word2Vec模型

最新推荐文章于 2024-06-30 19:29:54 发布

Dream_Poem

最新推荐文章于 2024-06-30 19:29:54 发布

阅读量1.3k

点赞数

文章标签：语言模型 word2vec 人工智能

本文链接：https://blog.csdn.net/Dream_Poem/article/details/122715563

版权

参考一个很全的总结：
预训练语言模型的前世今生 - 从Word Embedding到BERT

词向量

主要针对预训练语言模型（一）中的one-hot和词向量 $C(\omega_i)$ 。
one-hot不再赘述，只说缺点：当使用余弦相似度计算向量之间的相似度时，发现不同的词相似度都是为0，无法提现词之间的相似性问题。
$C(\omega_i)$ 就是我们常说的Word Embedding，仍然是这个图：

这是一个 $V\times m$ 的矩阵 $Q$ ，可以通过学习获得。
举个例子，第四个词的词向量就可以这么算：
$\left[ \begin{matrix} 0 & 0 & 0 & 1 &0 \end{matrix} \right] \left[ \begin{matrix} 17 & 24 & 1\\ 23 & 5 & 7\\ 4 & 6 & 13\\10 & 12 & 19 \\ 11 & 18 & 25 \end{matrix} \right]=\left[ \begin{matrix} 10 & 12 & 19 \end{matrix} \right]$
这样再计算向量相似度时结果就不再是0，也可以在一定程度上描述两个向量之间的相似度。
看一些结果：