一、Word Embedding
在NLP任务中,我们将自然语言交给算法来处理,但计算机无法直接理解人类的语言,因此首先要做的是事情就是将语言数学化,即将文本数据转换为数值型数据,由此引出 Word Embedding 的概念。
如果将 Word 看成文本的最小单元,可以将词嵌入 (Word Embedding) 理解为一种映射,其过程是:将文本空间中的某个 Word,通过一定的方法,映射到(或者说嵌入 embedding)到一个数值空间, Word 在数值空间的表示即 word representation。
如果该数值空间是一个向量空间,每个 Word 对应一个一维向量,那么这个一维向量被称为词向量。
Word embedding 将「不可计算」「非结构化」的词转化为「可计算」「结构化」的向量。这一步解决的是”将现实问题转化为数学问题“,是人工智能非常关键的一步。
注意:词向量只是针对“词”来提的,事实上,我们也可以针对更细粒度或更粗粒度来进行推广,如字向量,句子向量和文档向量, 它们能为字、句子、文档等单元提供更好的表示。
二、词向量
如何将词映射为向量?
(1)One-hot 表示
最简单的一种词向量是 one-h