word embedding(词嵌入):一种分布式此表示(distributed word representation),可以同时捕获词的语义以及语法信息。
本文主要比较已有的各种词嵌入模型与方法,并通过实验的视角详细分析在训练词嵌入模型的需要注意的一些重要点,包括模型建立、训练数据集设计、参数选择。
首先要弄清楚模型的建立,所有的模型基本都基于:共同出现在相似上下文环境中的词倾向于拥有相似的含义(words that occur in similar contexts tend to have similar meanings),但不同的模型使用不同的方法对目标词w和它的上下文环境c进行建模。下表是常用方法的简答比较:
Model | Relation of w,c | Representation of c |
---|---|---|
Skip-gram | c predicts w | One of c |
Continuous bag of words(CBOW) | c predicts w | Average |
Order | c predicts w | Concatenation |
Log-bilinear language(LBL) model | c predicts w | Compositionality |
Neural network language model(NNLM) | c predicts w | Compositionality |
Collobert and Weston(C&W) | Scores w,c | Compositionality |