参考视频:https://www.bilibili.com/video/av41393758?from=search&seid=898273972389058050
视频后期有点音画不同步
这一节主要讲的内容为word2vec。即单词的向量表示。在这里主要介绍了一种方法,skip方法。
这里用的skip方法核心是根据中心词推附近词。
这里有一个重要的图,图中红色部分代表的是w权重矩阵,有两个权重矩阵,这里的意思是一个单词有两个词向量表示,一个是作为中心词的词向量,一个是作为附近词的词向量。之所以有两次词向量表示是为了避免训练的时候参数纠缠,解决如何更新参数问题。
同时在这部分讲解的过程中,弹幕提到一个问题,就是第二部分的红色权重矩阵,有三个,这三个如果一样,则输出的1*V向量也应该一样。(讲解中提到了参数,模型中所有的参数只是词向量)
这里我想到的回答是,整个输出是1w维的向量,表达的是1w维个输出单词所对应的概率,这个概率是该输出单词为该中心词左右两个单位的词的概率,4个真实输出词所对应的概率尽可能高,是整个word2vec的目标函数。所以仅应该有一个权重即可。
上图作用,根据loss函数计算迭代公式。主要目的是为了计算学习率需要乘的参数
上式为迭代所需乘的部分。
附:在课程中穿插了陈同学,很厉害的样子。介绍了句子的向量化表示: