FastText模型：Enriching Word Vectors with Subword Information-CSDN博客

本文链接：https://blog.csdn.net/ACM_hades/article/details/105258695

FastText模型基于skip-gram模型改进，引入字符级n-grams，能为未在训练集出现的词生成词向量。通过将词和其n-grams的one-hot编码相加并乘以连接矩阵，得到词向量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考链接

论文链接：Enriching Word Vectors with Subword Information

FastText模型

FastText模型是在skip-gram模型基础上提出来的，所有首需要回顾一下skip-gram模型，可以参考连接： skip-gram模型
skip-gram模型图：
在skip-gram模型中对词汇表中每个词 $w$ 都对应着两个向量：
- 输人向量 $u_w$ :是输入层到隐藏层层连接矩阵 $W∈R^{V×N}$ 的行向量
- 输出向量 $v_t$ :是隐藏层到输出层的连接矩阵 $W'∈R^{N×V}$ 的列向量
- $V$ 是词汇表的大小，N是词向量的维度

FastText模型与Skip-gram模型相同部分

FastTex模型与skip-gram模型隐藏层到输出层部分(即后半部分) 是一样的结构，都是一个将隐藏层状态向量 $h_t$ 输出到 $s o f t m a x$ 层得到词汇表各词的预测概率。
训练目标是一样的都是用当前词 $w_t$ 预测其上下文词集 $C_t$
$s o f t m a x$ 层也都是使用负采样 $s o f t m a x$ 层或者分层 $s o f t m a x$ 层进行优化。

FastText模型与Skip-gram模型不同部分

FastTex模型与skip-gram模型区别在于：输出层到隐藏层部分(前部)，即得到隐藏层状态向量 $h_t$ 方式：
skip-gram模型：将当前词 $w_t$ 的one-hot编码与连接矩阵 $W∈R^{V×N}$ 相乘，得到词 $w_t$ 的输入向量 $u_{w_t }$ 作为隐藏层状态向量 $h_t$ ，即 $h_t=u_{w_t }$
FastTex模型:将当前词的 $w_t$ 和该词的字符级的n-grams的one-hot编码相加，再将这个和与连接矩阵 $W∈R^{V×N}$ 相乘，得到隐藏层状态向量 $h_t$ ，该向量就是我们最终得到词 $w_t$ 的词向量(即FastTex模型的词向量)。计算隐藏层状态向量 $h_t$ 的细节下面进行详细解释。

字符级n-grams

下面举例子来说明符级n-grams(character n-grams):求词 where 的n-grams
- 在 where 前后加上 开始符< 和 结束符>,于是得到 <where>
- 我们取n-grams中 $n = 3$ ,得到 where 5个字符级tri-gram如下： $< w h, w h e, h e r, e r e, r e >$
- 那么 where 对应6个一个词和5个子词(Subword): $< w h e r e >, < w h, w h e, h e r, e r e, r e >$ 他们都有自己对应输入向量 $u$ ,将它们的输入向量求和就得到了词 where 的隐藏层状态向量 $h_{where}$ , $h_{where}$ 也就是词 where 的词向量。

FastText模型的隐藏层计算方法

论文n-grams中n不是简单的取3，而是分别取3，4，5，6；这样可以得到更多的字符级n-grams(也叫子词)
下面讲述FastTex模型输出层到隐藏层的结构(论文中没有直接说明是我个人的理解不一定正确)：
- 输入层词汇表 $D_{in}$ (输入层使用的词汇表)：对于词汇表 $D$ 的每个词我们分别对其进行字符级n-grams提取并将这个字符级n-grams和原词一起加入输入层词汇表 $D_{in}$ 。
  - 比如对于词汇表 $D$ 中的 where 词：
    - 原词： $< w h e r e >$
    - 3-grams: $< w h, w h e, h e r, e r e, r e >$
    - 4-grams: $< w h, w h e, h e r, e r e, r e >$
    - 5-grams: $< w h e r, w h e r e, h e r e >$
    - 6-grams: $< w h e r e, w h e r e >$
  - 然后将它们都加入输入层词汇表 $D_{in}$ 中
- 显然 $D_{in}$ 比 $D$ 要大。我们将原词汇表 $D$ 叫做输出层词汇表 $D_{out}$
- 因为输入层词汇表的改变所以输入层到隐藏层的连接矩阵由 $W∈R^{|D|×N}$ 变为 $W∈R^{|D_{in} |×N}$ , $W$ 的行有些是某个词(比如 where )的输入向量( $u_{where}$ ),有些是字符级n-grams(子词)( $< w h, w h e, h e r$ 等)的输入向量( $u_{<wh}$ )
隐藏层状态向量 $h$ 的计算方式：
- 首先获取当前输入出 where 的字符级n-grams： $re>\\<wher, where, here>,<wher, where, here>$
- 然后将原词的和字符级n-grams的one-hot编码进行累加得到输入向量 $x_{where}$ ,即将 $< w h e r e$ >和 $< w h, w h e, h e r, e r e, r e >, < w h, w h e, h e r, e r e, r e >, < w h e r, w h e r e, h e r e >, < w h e r, w h e r e, h e r e >$ 的one-hot向量相加得到 $x_{where}$
- 将 $x_{where}$ 与连接矩阵 $W∈R^{|D_{in} |×N}$ 相乘得到隐藏在状态向量 $h_{where}$ ,其实是将 $< w h e r e >$ 和 $< w h, w h e, h e r, e r e, r e >, < w h, w h e, h e r, e r e, r e >, < w h e r, w h e r e, h e r e >, < w h e r, w h e r e, h e r e >$ 的输入向量 $u$ ( $W∈R^{|D_{in} |×N}$ )中对应的行)进行相加得到 $h_{where}$
当FastTex模型训练完成后，where 的词向量就是将其输入后得到隐藏层状态向量 $h_{where}$
因为FastTex模型的使用字符级n-grams所以对于没有在训练集中出现的词也可以得到该词对词向量，因为这个词的字符级n-grams出现过。