deep_learning 05. word2vec and fasttext

最新推荐文章于 2022-09-19 15:40:30 发布

adowu

最新推荐文章于 2022-09-19 15:40:30 发布

阅读量324

点赞数

分类专栏： Models 文章标签： word2vec cbow skip-gram fasttext

本文链接：https://blog.csdn.net/WUUUSHAO/article/details/88227414

版权

Models 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

开始的话：
从基础做起，不断学习，坚持不懈，加油。
一位爱生活爱技术来自火星的程序汪

今天开始好好整理下 $N e u r a l$ $N e t w o r k$ $E m b e d d i n g$ 的相关知识。初步预计包括： $w o r d 2 v e c$ 、 $g l o v e$ 、 $f a s t t e x t$ 、 $e l m o$ 、 $b e r t$ 。希望能尽快整理出来。

话不多说，先开始我们今天的 $w o r d 2 v e c$ 和 $f a s t t e x t$

按照惯例先上图

$D N N$ 中的 $c b o w$ 和 $s k i p$ - $g r a m$

在 $w o r d 2 v e c$ 之前，怎么表示词向量呢？除了 $o n e$ - $h o t$ 之外，就已经有用神经网络 $D N N$ 来训练词向量来处理词与词之间的关系了。一般采用的是两层神经网络：隐藏层、输出层（输入层一般不算。）

举个栗子：
以 $c b o w$ （ $C o n t i n u o u s$ $B a g$ - $o f$ - $W o r d s$ ）模型为例：
假设输出向量维度为5：
词表大小为10：
输入是某一个中心词（图中的 $w_t$ ）的上下文相关的词（图中除了 $w_t$ 以外的词，用 $o n e$ _ $h o t$ 编码这4个词），从输入层到隐藏层的权重为 $10 * 5$ 的矩阵，权重是随机初始化的。输入是 $4 * 10$ 的矩阵，输入层到隐藏层的权重是 $10 * 5$ 的矩阵。这样通过下标对应位置上的随机初始化的向量就是输入的4个词的向量，就得到了一个 $4 * 5$ 的矩阵。然后将这个 $4 * 5$ 的矩阵和输出层的神经元（权重也是随机初始化的大小为 $5 * 10$ ）相乘，然后经过线性变化再加和求平均，这样就得到了词汇表中所有词的 $s o f t m a x$ 概率。我们训练的目标是期望中心词 $w_t$ 的概率是最大的，并输出这特定的一个词 $w_t$ 的词向量（也就是输入层到隐藏层那个权重举证对应的概率最大位置的向量。通过反向传播算法，经过反复的迭代，就可以训练得到很不错的词向量了。

结合图看看

这就是我理解的 $D N N$ 中的词向量产生的大致过程。

$w o r d 2 v e c$ 中的 $c b o w$ 和 $s k i p$ - $g r a m$

这和 $w o r d 2 v e c$ 中的 $c b o w$ 和 $s k i p$ - $g r a m$ 模型还是有许多地方是不一样的。
区别：
第一：从隐藏层到输出层之间，替换掉了线性变换和激活的操作，而是简单的所有向量加和求平均的操作，还是以上面的例子：也就是对四个词向量加和求平均，得到一个向量来表示。
第二：从隐藏层到输出层之间，替换掉了 $s o f t m a x$ ，取而代之的是霍夫曼树。霍夫曼树的叶子节点就是 $v o c a b$ _ $s i z e$ 大小的词。

根据词表中的各个单词的 $c o u n t$ 来构建霍夫曼树。
这样就满足了高频词的路径更短，符合贪心优化的思想
另外之前的计算量为 $O (D)$ ，现在变为了 $O(log_2D)$

在 $w o r d 2 v e c$ 中，采用的是二元逻辑回归的方法：
沿着左子树走，为负类，编码为 $1$
沿着右子树走，为正类，编码为 $0$
用 $s i g m o i d$ 判断正类和负类：
正类：
$P(+)=σ(x_w^Tθ)=\frac{1}{1+e^{-x_w^Tθ}}$
负类：
$P (-) = 1 - P (+)$
$x_w$ 当前内部节点的词向量
$θ$ 逻辑回归的模型参数，需要学习的

和 $L o g i s t i c$ $R e g r e s s i o n$ 一样：
对数似然函数 $L$ 为：
$L(w)=∑_{j=2}^{l_w}((1−d^w_j)log[σ(x^T_wθ^w_{j−1})]+d^w_jlog[1−σ(x^T_wθ^w_{j−1})])$

$l_w$ 节点总数
$d^w$ 节点的霍夫曼编码
在 $w o r d 2 v e c$ 中每次仅用一个样本更新梯度，可以减少梯度计算量，因为我们要求的是 $L (w)$ 的最大值，所以使用的是：
随机梯度上升法
$w = w + α \nabla w f (w)$

具体的推导过程就不在这里详细叙述了（也不是我的强项，手动滑稽。）

$w o r d 2 v e c$ 中的 $n e g a t i v e$ $s a m p l i n g$

$w o r d 2 v e c$ 不仅使用了霍夫曼树来优化最后的输出，还用了另外一种优化方法，那就是 $n e g a t i v e$ $s a m p l i n g$ （负采样）。最后并不需要构建霍夫曼树。

如何理解呢？
对于上图中的例子，中心词 $w_t$ ，与之相关的 $w_{t-2}$ 到 $w_{t+2}$ 这四个词（假设称为 $c o n t e n t (w)$ ）就是正例。那么负例怎么来呢？我们随机选取 $N$ 个词作为 $c o n t e n t (w)$ 的中心词，那么这 $N$ 个就是负例了。

对数的极大似然和霍夫曼树差不多，只不过是N个负例和1个正例的计算量，而不是 $l_w$ 总的节点数量了。

那又如何选取这 $N$ 个词呢？
假设词表大小为 $V$ ,我们将一条直线分为 $V$ 份，每份的长度则为词频与总长度的比。
在 $w o r d 2 v e c$ 中设置了 $p o w e r = 0.75$ ，来计算每份的长度

$len(w)=\frac{count(w)^{0.75}}{∑_{u∈vocab}count(u)^{0.75}}$

train_words_pow += wv.vocab[wv.index2word[word_index]].count**power

采样的时候，我们会把这条已经分成 $V$ 份的线，再次分成 $M$ 份（ $M > > V$ ），所以我们只需要在 $M$ 中采样出 $N$ 个位置就行，得到的就是我们的负例了。

部分代码片段如下：

 if model.negative:
        # use this word (label = 1) + `negative` other random words not from this sentence (label = 0)
        word_indices = [word.index]
        while len(word_indices) < model.negative + 1:
            w = model.cum_table.searchsorted(model.random.randint(model.cum_table[-1]))
            if w != word.index:
                word_indices.append(w)

着重关注：

model.random.randint(model.cum_table[-1])

而其中的 $c u m$ _ $t a b l e$

    def make_cum_table(self, wv, power=0.75, domain=2**31 - 1):
        """Create a cumulative-distribution table using stored vocabulary word counts for
        drawing random words in the negative-sampling training routines.

        To draw a word index, choose a random integer up to the maximum value in the
        table (cum_table[-1]), then finding that integer's sorted insertion point
        (as if by bisect_left or ndarray.searchsorted()). That insertion point is the
        drawn index, coming up in proportion equal to the increment at that slot.

        Called internally from 'build_vocab()'.
        """
        vocab_size = len(wv.index2word)
        self.cum_table = zeros(vocab_size, dtype=uint32)
        # compute sum of all power (Z in paper)
        train_words_pow = 0.0
        for word_index in xrange(vocab_size):
            train_words_pow += wv.vocab[wv.index2word[word_index]].count**power
        cumulative = 0.0
        for word_index in xrange(vocab_size):
            cumulative += wv.vocab[wv.index2word[word_index]].count**power
            self.cum_table[word_index] = round(cumulative / train_words_pow * domain)
        if len(self.cum_table) > 0:
            assert self.cum_table[-1] == domain

$f a s t T e x t$ 和 $c b o w$

最后再来讲一下 $f a c e b o o k$ 的 $f a s t T e x t$ 。
我理解的 $F a s t t e x t$ 是为了做 $t e x t$ $c l a s s i f i c a t i o n$ 的，顺带生成了词向量。
之所以把 $f a s t T e x t$ 和 $c b o w$ 放在一起讲呢？就是因为 $f a s t t e x t$ 和 $c b o w$ 的模型架构很相似：
都是输入层、隐藏层、输出层（ $h i e r a r c h i c a l$ $s o f t m a x$ ）

不同的是：

$c b o w$ 的输入是中心词的上下文 $c o n t e x t (w)$ ，是经过 $o n e$ - $h o t$ 的向量，而 $f a s t t e x t$ 的输入是文本的分词之后的向量表示（也是简单的加和求平均），最重要的是还有字符级的 $N$ - $g r a m$ 的表示作为输入输入的另一部分。

这样对于低频词更友好，可以用字符级的特征来表示一部分信息；
另外对于 $O O V$ 也能用字符级的特征来叠加或者表示一部分。
最后的输出： $c b o w$ 是输出中心词的概率， $f a s t t e x t$ 输出的是文档对应的类别的概率。

个人还是比较喜欢 $f a c e b o o k$ 的产品的，简单至上。

$f a s t t e x t$ 的前半部分就是生成向量来表征 $s e n t e n c e$ ：简单的叠加 $w o r d s$ - $v e c t o r$ 以及 $n$ - $g r a m$ 的 $v e c t o r$ ，然后取平均。
得到文档向量之后，就是做 $s o f t m a x$ $c l a s s i f i c a t i o n$ $t a s k$
关键在 $n$ - $g r a m$ 特征的引入以及 $h$ - $s o f t m a x$ .
谢谢