NLP论文学习笔记-word2vec_word2vec原文-CSDN博客

本文链接：https://blog.csdn.net/lzj50002801/article/details/107440948

论文原文: Efficient Estimation of Word Representations in Vector Space
作者: Tomas Mikolov
发表时间: 2013

一、论文背景

统计语言模型
基于马尔科夫假设（下一个词的出现仅依赖于前面的一个词或几个词），通过概率计算来描述语言模型(用语料在数据集出现频率近似概率结果)

缺点：参数空间过大，数据稀疏严重

Word representation

One-hot Representation(稀疏)
watch [0,0,0,0,0,0,0,0,0,1]
table [0,0,0,0,0,0,0,0,1,0]
Distributed Representation（稠密）
watch [0.1,0.2,0.1,0.1,0.7,0.8,0.9,0.1,0.1,0.1]

N-gram

NNLM (Feedforward Neural Net Language Model 前馈神经网络)

引用: Bengio A neural probabilistic language model (2003)
基本思想：根据前N-1个词预测第N个位置出现单词的概率，优化模型，使输出概率最大；
输入层： [1xV] * [VxD] => [1xD] （V：vocabulary 词表大小，D：词向量维度）
隐藏层：全连接层，激活函数a=tanh(d+Ux)
输出层： softmax函数，y=b+Wa ( y的维度 [ 1 x V ] )
Loss：L = $\ -\frac{1}{T}\sum_{i=1}^T log{p(w_i|w_{i-n+1},...,w_{i-1})}$
困惑度： PP(s) = $P(w_1,w_2,...w_T)^{-\frac1T}$ = $\quad \sqrt[T]{\frac1{P(w_1,w_2,...w_T)}}$ = ${\bf \color{#f00}{e^L}}$

优点：

仅对一部分输出进行梯度传播;
引入先验知识，如词性等；
解决一词多义问题；
加速softmax层；

RNNLM (Recurrent Neural Net Language Model 循环神经网络)

基本思想：每个时间步预测一个词，在预测第N个词时试用了前N-1个词的信息；
输入层： [1xV] * [VxD] => [1xD] （V：vocabulary 词表大小，D：词向量维度）
隐藏层：全连接层， $s (t) = U w (t) + W s (t - 1) + d$
输出层： softmax函数， $y (t) = b + V s (t)$ ( y的维度 [ 1 x V ] )
Loss：L = $\ -\frac{1}{T}\sum_{i=1}^T log{p(w_i|w_{i-n+1},...,w_{i-1})}$
困惑度： PP(s) = $P(w_1,w_2,...w_T)^{-\frac1T}$ = $\quad \sqrt[T]{\frac1{P(w_1,w_2,...w_T)}}$ = ${\bf \color{#f00}{e^L}}$

二、模型结构

语言模型的基本思想
句子中下一个词的出现和前面的词是有关系的，所以可以使用前面的词预测下一个词。
Word2Vec的基本思想
句子中相近的词之间是有联系的，比如今天后面经常出现上午，下午和晚上。所以 Word2vec的基本思想就是用词来预测词，skip-gram 使用中心词预测周围词，cbow使用周围词预测中心词。

2.1 abstract

提出了两种新颖的模型结构（skip-gram、cbow）用来计算词向量
采用一种词相似度的任务来评估对比词向量质量
大量降低模型计算量可以提升词向量质量
在语义和句法任务上，效果表现很好

2.2 SKIP-GRAM

在这里插入图片描述

求解公式： $\frac {exp(u_o^Tv_c)}{\sum_{w=1}^Vexp(u_w^Tv_c)}$

注： $v_c$ 是中心词向量， $u_o^Tv_C$ 是窗口内上下文词向量

损失函数： $J(\theta) = \frac1T\sum_{t=1}^T\sum_{-m\leq j\leq m,j\neq0} \log p(w_{t+j}|w_t)$

2.2 CBOW

在这里插入图片描述

基本原理： $p_i = p(w_i|w_{i-2},w_{i-1},w_{i+1},w_{i+2})$
求解公式： $\frac {exp\{u_o^Tv_c\}}{\sum_{j=1}^Vexp\{u_w^Tv_c\}}$

注：
e1,e2,e3,e4 上下文词
$u_o$ = sum(e1,e2,e3,e4)
$u_o$ 是窗口内上下文词向量的和， $v_c v_j$ 是中心词向量

损失函数：
$J(\theta) = \frac1T\sum_{T}\sum \log p(c|o))=\frac 1T \sum \frac {exp\{u_o^Tv_c\}}{\sum_{j=1}^Vexp\{u_w^Tv_c\}}$

2.3 复杂度

Hierarchical Softmax （层次softmax）
基本思路：构建哈夫曼树，复杂度 V => $log_2V$
Negative Sampling
基本思路：增大正样本概率，减小负样本概率
损失函数： $J_{neg-sample}(\theta) = \log \sigma(u_o^Tv_c) + \sum_{k=1}^K E_{k \sim P(w)}[\log \sigma(-u_k^Tv_c)]$
注： $v_c$ 是中心词向量， $u_o$ 窗口内上下文词向量， $u_k$ 负采样上下文词向量
第一部分是P(o|c)，第二部分是1-P(j|c)
负采样： $\frac {U(w)^\frac34}z$
Subsampling of Frequent Words(重采样)
重采样方法： $\sqrt \frac {t}{f(w_i)}$
注： $f(w_i)$ 是词在数据集中出现的概率，论文中 $t=10^{-5}$ , 训练集中词 $w_i$ 会以 $P(w_i)$ 的概率被删除。