word2vec

最新推荐文章于 2020-09-03 11:00:00 发布

u012436149

最新推荐文章于 2020-09-03 11:00:00 发布

阅读量1.3k

点赞数

分类专栏： MachineLearning NLP deeplearning 文章标签： word 深度学习机器学习

本文链接：https://blog.csdn.net/u012436149/article/details/53214016

版权

MachineLearning 同时被 3 个专栏收录

16 篇文章 1 订阅

订阅专栏

deeplearning

12 篇文章 1 订阅

订阅专栏

NLP

8 篇文章 6 订阅

订阅专栏

word2vec

为什么要进行embedding

word2vec就是对word进行embedding

首先,我们知道,在机器学习和深度学习中,对word的最简单的表示就是使用one-hot([0,0,1,0,0…..]来表示一个word). 但是用one-hot表示一个word的话,会有一些弊端:从向量中无法看出word之间的关系( $(w^{word_a})^Tw^{word_b}=0$ ),而且向量也太稀疏. 所以一些人就想着能否用更小的向量来表示一个word,希望这些向量能够承载一些语法和语义上的信息, 这就产生了word2vec

Language Model(Unigrams, Bigrams, Trigrams..etc)

language model 对序列的概率建模
Unigram:
假设句子中,各个word是独立的
$P(w_1,w_2,w_3..,w_n) = \prod_{i=1}^{n}P(w_i)$

Bigram
假设句子中,每个word只和之前的一个word有关系
$P(w_1,w_2,w_3..,w_n) = \prod_{i=2}^{n}P(w_i|w_{i-1})$

Trigram
假设句子中,每个word和前两个word有关系
$P(w_1,w_2,w_3..,w_n) = \prod_{i=1}^{n}P(w_i|w_{i-1},w_{i-2})$

上面的模型都基于很强的假设,而实际上,句子中的每个word,是和整个句子有关系的,不仅仅只是考虑前一个或前两个

Continuous Bags of Words Model (CBOW)

这个模型是上面几种模型的扩展.CBOW不是简单的只考虑前一个词或前两个词,它是考虑了单词的上下文(context).在CBOW,我们的目标是 $max P(w|context(w))$ .
这里写图片描述
首先,模型的输入(context)是one-hot’s ,模型的输出(w)是one-hot, $one\_hot\in R^{|V|}$ ,这个是已知的.我们要创建两个矩阵 $E=Matrix(embedding)\in R^{|V|* {embedding\_size}}$ , $P=Matrix(projection)\in R^{{embedding\_size}* |V|}$ , 这两个矩阵是需要训练的. $|V|$ 是字典的大小, $embedding\_size$ 是任意值(代表你想把onehot压缩成几维表示).

c o n t e x t = 01 ⋮ 00 00000010 \dots \dots \dots \dots 10000001 \in R | c o n t e x t (w) | * | V |

$context = \begin{matrix} 0 & 0 & 0 &\cdots & 1 & 0 \\ 1 & 0 & 0 &\cdots & 0 & 0 \\ \vdots \\ 0 & 0 & 1 &\cdots & 0 & 0 \\ 0 & 0 & 0 &\cdots & 0 & 1 \end{matrix} \in R^{|context(w)|* |V|}$

E m b e d = 0.1 0.1 0.1 0.1 ⋮ 0.1 0.1 0.1 0.1 0.3 0.1 0.3 0.1 0.3 0.1 0.3 0.1 0.2 0.0 0.2 0.0 0.2 0.0 0.2 0.0 \dots \dots \dots \dots \dots \dots \dots \dots 0.1 0.6 0.1 0.6 0.1 0.6 0.1 0.6 0.3 0.5 0.3 0.5 0.3 0.5 0.3 0.5 \in R | V | * e m b e d d i n g_s i z e

$Embed = \begin{matrix} 0.1 & 0.3 & 0.2 &\cdots & 0.1 & 0.3 \\ 0.1 & 0.1 & 0.0 &\cdots & 0.6 & 0.5 \\ 0.1 & 0.3 & 0.2 &\cdots & 0.1 & 0.3 \\ 0.1 & 0.1 & 0.0 &\cdots & 0.6 & 0.5 \\ \vdots \\ 0.1 & 0.3 & 0.2 &\cdots & 0.1 & 0.3 \\ 0.1 & 0.1 & 0.0 &\cdots & 0.6 & 0.5 \\ 0.1 & 0.3 & 0.2 &\cdots & 0.1 & 0.3 \\ 0.1 & 0.1 & 0.0 &\cdots & 0.6 & 0.5 \end{matrix} \in R^{|V|* embedding\_size}$

P r o j = 0.1 0.1 0.1 0.1 ⋮ 0.1 0.1 0.1 0.1 0.3 0.1 0.3 0.1 0.3 0.1 0.3 0.1 0.2 0.0 0.2 0.0 0.2 0.0 0.2 0.0 \dots \dots \dots \dots \dots \dots \dots \dots 0.1 0.6 0.1 0.6 0.1 0.6 0.1 0.6 0.3 0.5 0.3 0.5 0.3 0.5 0.3 0.5 \in R e m b e d d i n g_s i z e * | V |

$Proj = \begin{matrix} 0.1 & 0.3 & 0.2 &\cdots & 0.1 & 0.3 \\ 0.1 & 0.1 & 0.0 &\cdots & 0.6 & 0.5 \\ 0.1 & 0.3 & 0.2 &\cdots & 0.1 & 0.3 \\ 0.1 & 0.1 & 0.0 &\cdots & 0.6 & 0.5 \\ \vdots \\ 0.1 & 0.3 & 0.2 &\cdots & 0.1 & 0.3 \\ 0.1 & 0.1 & 0.0 &\cdots & 0.6 & 0.5 \\ 0.1 & 0.3 & 0.2 &\cdots & 0.1 & 0.3 \\ 0.1 & 0.1 & 0.0 &\cdots & 0.6 & 0.5 \end{matrix} \in R^{embedding\_size*|V|}$
模型运作步骤:
(1) 生成 context的 one-hot矩阵
(2) 计算出 context的 embedding matrix,

context∗E∈Rcontext(w)∗|V| $context * E \in R^{context(w)* |V|}$
(3) 将获取的 matrix平均,

v̂ =reducemean(context∗E,1) $\hat v=reduce_mean(context*E, 1)$
(4) 生成评分向量

z=reduce_mean(context∗E,1)∗P∈R|V| $z=reduce\_mean(context*E,1)* P \in R^{|V|}$
(5) 将评分向量转成概率分布

ŷ =softmax(z) $\hat y = softmax(z)$

ŷ $\hat y$ 的分布和实际分布

y $y$ 越相近,则模型学习的越好, 如何描述两个分布的相似性呢?借用信息论中的交叉熵

H(ŷ ,y)=−∑|V|i=1yilog(ŷ i) $H(\hat y,y)=-\sum_{i=1}^{|V|}y_ilog(\hat y_i)$ 作为目标函数, 然后使用梯度下降来更新参数.

m i n i m i z e J = - l o g P (w c | w c - m, w c - m + 1, . . ., w c - 1, w c + 1, . . ., w c + m) = - l o g P (p r o j c | v ̂) = - l o g e x p ( p r o j c v ̂ T ) \sum | V | i = 1 p r o j i v ̂ T

$\begin{aligned} minimize\space J &= -logP(w_c|w_{c-m},w_{c-m+1},...,w_{c-1},w_{c+1},...,w_{c+m})\\ &= -logP(proj_c|\hat v)\\ &= -log\frac{exp(proj_c\hat v^T)}{\sum_{i=1}^{|V|}proj_i\hat v^T} \end{aligned}$
m:窗口大小

skip-gram Model

skip-gram model和CBOW结构相反, CBOW输入上下文, 输出中间的word.skip-gram输入中间的word,输出上下文.
这里写图片描述
需要学习的依旧是两个矩阵, $Embed\in R^{|V|* embedding\_size}$ 和 $Proj\in R^{embedding\_size* |V|}$

m i n i m i z e J = - l o g P (w c - m, w c - m + 1, . . ., w c - 1, w c + 1, . . ., w c + m | w c) = - l o g \prod i = c - m, i \neq c c + m P (w i | w c) = - l o g \prod i = c - m, i \neq c c + m P (p r o j i | e m b e d c)

$\begin{aligned} minimize\space J&=-logP(w_{c-m},w_{c-m+1},...,w_{c-1},w_{c+1},...,w_{c+m}|w_c)\\ &= -log \prod_{i=c-m,i \neq c}^{c+m}P(w_i|w_c)\\ &= -log\prod_{i=c-m,i \neq c}^{c+m}P(proj_i|embed_c) \end{aligned}$

Negtive Sampling

看公式 $\sum_{i=1}^{|V|}proj_i\hat v^T$ ,如果 $|V|$ 很大,那么运算量是相当大的,为了减少运算量,就提出了Negtive Sampling.
Negtive Sampling基于skip-gram model.
考虑一个(w,c)对,其中w是中心单词,c为w上下文中的一个单词, $P(D=1|w,c,\theta)$ 表示c是w上下文中单词的概率, $P(D=0|w,c,\theta)$ 表示c不是w上下文中单词的概率.我们先对 $P(D=1|w,c,\theta)$ 进行建模:

P (D = 1 | w, c, θ) = 1 1 + e x p ( - ( p r o j c ) ( e m b e d T w ) ) e m b e d w \in R e m b e d d i n g_s i z e

$P(D=1|w,c,\theta)=\frac{1}{1+exp(-(proj_c)(embed_w^T))} \space\space embed_w\in R^{embedding\_size}$
相比 CBOW和 skip-gram, Negtive Sampling思想是,如果 c是 w的上下文中的单词,就最大

P(D=1|w,c,θ) $P(D=1|w,c,\theta)$ ,如果不是,就最大化

P(D=0|w,c,θ) $P(D=0|w,c,\theta)$ ,

θ $\theta$ 就是

Embed,Proj $Embed, Proj$

θ = a r g m a x θ \prod (w, c) \in D P (D = 1 | w, c, θ) \prod (w, c) \notin D P (D = 0 | w, c, θ) = a r g m a x θ \sum (w, c) \in D l o g P (D = 1 | w, c, θ) + \sum (w, c) \notin D l o g (1 - P (D = 0 | w, c, θ)) = a r g m a x θ \sum (w, c) \in D l o g 1 1 + e x p ( - ( p r o j c ) ( e m b e d T w ) ) + \sum (w, c) \notin D l o g (1 - 1 1 + e x p ( - ( p r o j c ) ( e m b e d T w ) ) )

$\begin{aligned} \theta &= argmax_{\theta} \prod_{(w,c)\in D}P(D=1|w,c,\theta)\prod_{(w,c)\notin D}P(D=0|w,c,\theta) \\ &= argmax_{\theta} \sum_{(w,c)\in D}logP(D=1|w,c,\theta)+\sum_{(w,c)\notin D}log(1-P(D=0|w,c,\theta)) \\ &= argmax_{\theta}\sum_{(w,c)\in D}log\frac{1}{1+exp(-(proj_c)(embed_w^T))}+\sum_{(w,c)\notin D}log(1-\frac{1}{1+exp(-(proj_c)(embed_w^T)))}\\ \end{aligned}$
这样运算量就被减小了.
x训练之后,对

Embed $Embed$ 和

Proj $Proj$ 有多种处理方式:
(1) 求和
(2)平均
(3)连接起来
问题:
(1): Negtive Sampling只考虑了上下文关系,没有考虑单词之间的顺序关系,如果考虑进去的话,效果会不会更好?
(2): word2vec,优化的都是 proj_c和 embed_w的距离,让这两个向量尽量的近,这个代表了什么?
(3):对于

Embed $Embed$ ,感觉更新的频率不够