文本分类实战系列(一):特征工程
Softmax 公式 + 交叉熵损失
word2vec的原理:用词出现的上下文来表示这个词,上下文越接近的词之间的语义相似性越高。
例如,上一小节中举到的例子,“话筒”和“麦克风”两者的上下文可能非常接近,因此会被认为是语义接近的。(不过语义接近并不代表含义接近,例如“黑色”和“白色”的上下文是相似的,但所代表的含义可能却是相反的)。
word2vec和GloVe两者的思想是类似的,都是用词的上下文来表示这个词,但是用的方法不同:word2vec是predict-based,用一个3层的NN模型来预测词的上下文(或者反过来),词向量是训练过程的中间产物;而GloVe则是count-based的方法,通过对共现词矩阵做降维来获取词的向量。两者在效果上相差不大,但GloVe模型的优势在于矩阵运算可以并行化,这样训练速度能加快。