本次课程的主讲人是Richard Socher,第三讲的重点是对word2vec的回顾和深入理解,包括在数据降维中用到的SVD(Singular Value Decomposition,奇异值分解)的原理、实现以及存在的问题。之后会详细介绍本次课程的重点——GloVe(2014,其作者就包括了Stanford cs224 的两位主讲人Richard Socher和Manning教授)。
对词向量的深入探究
-
Finish word2vec
-
What does word2vec capture
-
How could we capture this essence more effectively?
-
How can we analyze word vectors?
复习回顾:word2vec的主要思想
-
遍历整个语料库中的每一个单词
-
word2vec中存在一个窗口(window)的概念,对于每一个窗口中的中心词(window’s center)我们要预测它的窗口内的上下文单词(surrounding words)
p ( o ∣ c ) = e x p ( u o T v c ) ∑ w = 1 V e x p ( u w T v c ) p(o|c) = \displaystyle \frac{exp({u_{o}}^Tv_{c})}{\sum_{w=1}^V exp({u_{w}}^Tv_{c})} p(o∣c)=∑w=1Vexp(uwTvc)exp(uoTvc)
在该式中, o o o是输出的上下文单词中确切的某一个(outside words),c是中心词(center word), v c v_{c} vc和 u o u_{o} uo
-