Vector Representations of Words
自然语言处理不同于图像或音频处理。在图像处理中,像素点的强度值(如果是256色的强度值为0-255)是可以表示成High Dimension的 Data Vector Set。同样音频的功率密度
的强度值也是可以表示成 Data Vector Set。在自然语言处理中,每个词的传统表示都是离散的,简单的说,就是词和词之间不存在任何的关联。 比如”男孩” 和”女孩” 两个词,传统
的index的方法无法告诉我们这两个词都属性集合”孩子”或者是”人类”,他们的关系就比”男孩”和”城市”或”女孩”和”小鸟”更加紧密。
Word Embeddings
Vector Space Models (空间向量模型) 将词语表示成(embedding)在一个连续空间向量中的向量集合,语义更加相近的词汇被映射的数据点就会更加接近,比如’国王’和’王后’,‘北京’和‘天津’。
向量的间的距离是否更加接近取决于我们用来训练的上下文。在空间向量模型的研究上大概分为:基于语义分析的方法(例如LDA,SVD),基于预测的向量表示法(NNLM)。基于语义分析的方法大致
是:计算某词汇与其邻近词汇在一个大型语料库中共同出现的频率及其他统计量,然后将这些统计量映射到一个语义向量中。基于预测的表示法则试图直接从某词汇的邻近词汇对其进行预测,在此过程
中不断利用已经学习到的词和词之间的近似关系,不断完善,构建整体中每一个embedding word vector.
Word2vector
Word2vec是mikolov 发明的一种高效word embeddings learning的预测模型, 从中诞生的最主要的两种向量模型是:连续词袋模型(CBOW)及Skip-Gram模型:
CBOW: 简单来说就是利用上下文的词汇来预测目标词 比如:我爱北京天安门。假设目标词是’北京’,则CBOW用’我’,’爱’,‘天安门’来预测’北京’。
Skip-Gram 是它的一个可逆过程:通过目标词来预测上下文中的词汇。比如:我爱北京天安门。假设目标词是’中国’,则Skip-Gram 是用’北京’ 来预测上下文的’我’,’爱’,‘天安门’