My solution
3.word2vec
(a)(b)(c)skip-gram的求导和负采样
词向量模型有CBOW和skip-gram模型,注意这两个模型词向量做中间词和环境词往往不一样(虽然这样从理论上似乎并没有加强表达能力,但是实际操作来看又很有道理),这两个模型都有朴素神经网络形式。也都有两个优化,Hierarchy softmax(用logN个Huffman树上的二分类代替词向量的N分类降低时间复杂度)和负采样算法(除了增加正确答案的概率,还要降低错误答案的概率)。
相对CBOW来说,skip-gram似乎更加合理一点,因为从损失函数形式上来看,CBOW相当于 F