Word Embedding 是NLP中一组语言模型(language modeling)和特征学习技术(feature learning techniques)的总称,这些技术会把词汇表中的单词或者短语(words or phrases)映射成由实数构成的向量上。
即找到一个映射或者函数,把X所属空间的单词映射为到Y空间的多维向量,生成在一个新的空间上的表达,W:words→Rn是一个参数化函数,它把某个语言里的单词映射成高维向量(大概200到500维),该表达就是word representation。例如这样:
W("cat”)=(0.2, -0.4, 0.7, …)