词向量
在自然语言处理任务中,首先需要考虑字、词如何在计算机中表示。通常,有两种表示方式:one-hot表示和分布式表示
- one-hot表示
把每个词表示为一个长向量。这个向量的维度是词表大小,向量中只有一个维度的值为1,其余维度为0,这个维度就代表了当前的词。 例如:苹果 [0,0,0,1,0,0,0,0,···] 。one-hot表示不能展示词与词之间的关系,且特征空间非常大。 - 分布式表示
word embedding指的是将词转化成一种分布式表示,又称词向量。分布式表示将词表示成一个定长的连续的稠密向量。
分布式表示优点:
(1) 词之间存在相似关系:是词之间存在“距离”概念,这对很多自然语言处理的任务非常有帮助。
(2) 包含更多信息:词向量能够包含更多信息,并且每一维都有特定的含义。在采用one-hot特征时,可以对特征向量进行删减,词向量则不能。
NNLM和word2vec
- 不像图像,其本身输入到计算机中是矩阵,矩阵里的数字就隐含了其各种各样的特征,这些特征可以通过模型去学习和捕捉。而文本的输入,是字符串,这是计算机处理不了的,所以当初人们首先想到的就是独热编码,第一是这样就可以将文本转化为数字,计算机能进行处理;第二就是每个词都可以独一无二的被表示。但是这种表示丢失了词的一个很重要的特征,即语义。为了进行语义信息,联想到了分布式表示,分布式表示一个很重要的核心思想是:语义相近的词在高维度上是相互接近的。这里用一个简单的例子来感受一下分布式表示的魅力:
比如,我们要表示三样东西“红色的正三角形”,“红色的圆正方形”,“绿色的正三角形”,如果用one-hot编码表示,则分别为[1,0,0],[0,1,0],[0,0,1]。可以发现若这样表示,三个向量在三维空间上彼此正交,其之间的潜在特征将会因为这样的表示而消失。若我们在3维空间上,第一个维度空间表示颜色(红色0绿色1),第二个维度空间上表示圆和正(正0圆1),第三个维度空间上表示形状(三角形0正方形1),那么此时这三个向量可以表示为[0,0,0],[0,1,1],[1,0,0],我们发现,这三个向量彼此之间就存在了联系,若在来一个“绿色的圆三角形”,我们也可以轻松的表示为 [1,1,0],而不是独热编码的所有向量由三维变成四维。这也是独热编码的另一个致命缺陷,数据过于稀疏。
Word2Vec
2013 年,Google 团队发表了 word2vec 工具。word2vec 工具主要包含两个模型:跳字模型(skip-gram)和连续词模型(continuous bag of words,简称 CBOW),以及两种高效训练的方法:负采样(negative sampling)和层序 softmax(hierarchical softmax)。值得一提的是,word2vec 词向量可以较好地表达不同词之间的相似度和类比关系。
skip-gram:是根据目标词去预测周围词来训练得到词向量
CBOW:是根据上下文取预测目标词来训练得到词向量
skip-gram
例如,给定文本序列 “the”,“man”,“hit”,“his”,“son”。设背景窗口大小为 2, 跳字模型所关心的是,给定 “hit”,生成它邻近词 “the”,“man”.“his”,“son” 的概率(在这个例子中,“hit” 叫中心词,“the”,“man”,“his”,“son” 叫背景词),即
P ( c o n t e x t ( w t ) ∣ w t ) P(context(w_t)|w_t) P(context(wt)∣wt) P ( t h e , m a n , h i s , s o n ∣ h i t ) P(the,man,his,son|hit) P(the,man,his,son∣hit)假设在给定中心词的情况下,背景词的生成是相互独立的,那么上式可以改写成 P ( t h e ∣ h i t ) ⋅ P ( m a n ∣ h i t ) ⋅ P ( h i s ∣ h i t ) ⋅ P ( s o n ∣ h i t ) P(the|hit)·P(man|hit)·P(his|hit)·P(son|hit) P(the∣hit)⋅P(man∣hit)⋅P(his∣hit)⋅P(s