引入问题
当您搜索梅西时,我们如何使计算机告诉您有关足球或罗纳尔多的信息?您如何使计算机理解“苹果是美味的水果”中的“苹果”是可以食用的水果,而不是公司的水果?
上述问题的答案:为单词创建表示形式,以捕获单词的含义,语义关系以及所使用的不同上下文类型。
基本概念
词嵌入是一种表示文本的方式,其中词汇中的每个词都由高维空间中实数值向量表示,为了具有相似含义的单词在向量空间中具有相似表示(在向量空间中接近)的方式学习向量。
基于频率的词嵌入
- 计数向量化
- TF-IDF向量化
- 具有固定上下文的共现窗口
计数向量化
计数向量化模型从所有文档中学习词汇,然后通过计算每个单词出现的次数对每个文档建模。例如,假设我们有D个文档,T是词汇量中不同单词的数量,那么计数向量矩阵的大小将由D * T给出。让我们用以下两个句子举例:
D 1: “The cat sat on the hat”
D 2: “The dog ate the cat and the hat”
从这两个doc中,我们得到的词汇如下:
{ the, cat, sat, on, hat, dog, ate, and }
D = 2, T = 8
上述矩