Word2Vec之外的词向量训练方法(fastText，Glove)

最新推荐文章于 2024-01-16 09:04:56 发布

我最怜君中宵舞

最新推荐文章于 2024-01-16 09:04:56 发布

阅读量556

点赞数

分类专栏：机器学习深度学习自然语言处理文章标签：自然语言处理 word2vec glove fasttext 深度学习

本文链接：https://blog.csdn.net/qq_35169059/article/details/103473246

版权

机器学习同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

深度学习

9 篇文章 0 订阅

订阅专栏

自然语言处理

6 篇文章 4 订阅

订阅专栏

fastText

在Word2Vec训练词向量时忽略了英文单词单复数以及时态的变化。“dog”和“dogs”表示不同的单词但是具有相同的词根。我们在背单词的时候也会注意到，具有相同词根的单词在词义上会比较接近。而在Word2Vec的训练中，我们忽略了这些，将不同单词的单复数以及时态当作了不同的单词进行处理。

基于Word2Vec存在的以上问题，fastText提出了子词替换的概念，在Word2Vec的skip-gram模型中考虑进了构词信息，fastText在训练的时候会将每个中心词表示为子词的集合。

fastText采用基于字符的n-gram来划分子词。意思就是从原有单词中提取出长度大于1且小于等于n的子词。比如对于单词where来说，划分后得到的**<wh, whe, her, ere, re>,当然还需要附带上一个额外的子词即<where>**本身。

在fastText训练过程中，将中心词 $w$ 长度在3-6的子词集合记为 $G_w$ ，fastText的词典时所有词的子词的并集。如果假设词的词向量为 $z_g$ ，那么 $w$ 的词向量 $v_w$ 的表示为：
$v_w = \sum_{g \in G_w}z_g$
和Word2Vec相比，fastText的优势在于：

考虑到了构词规律，使得相同词根的词比较接近
对生僻词比较友好

Glove

对于Word2Vec的skip-gram模型来说，条件概率 $P(w_j|w_i)$ 的值为 $q_{ij}$ ：
$q_{ij}=\frac{\exp(\boldsymbol{u}_j^\top \boldsymbol{v}_i)}{ \sum_{k \in \mathcal{V}} \text{exp}(\boldsymbol{u}_k^\top \boldsymbol{v}_i)}$
其中 $v$ 指的是中心词向量， $u$ 指的是背景词向量， $\mathcal{V}$ 是词典索引集。

因此skip-gram想要最大化的是
$\sum_{i \in \mathcal V}\sum_{j \in \mathcal V} p_{ij}logq_{ij}$
但其实一个词在词典里不止出现一次，因此上式正确表示应该为
$\sum_{i \in \mathcal V} x_i \sum_{j \in \mathcal V} p_{ij}logq_{ij}$
$x_i$ 是词 $w_i$ 在词典内出现的次数