这里写目录标题
一、词表示定义
通过将我们人类的单词转化成机器能理解的意思
当计算机理解了词的意思后,希望计算机拥有以下两种能力:
1、计算词之间的相似度
2、推断词之间的联系
One-Hot Representation
将词转化成向量表示
可以很方便的计算两个文档之间的相似度。
但是任意两个词的向量都正交,导致任意两个词的相似度计算都为0
Represent Word by Context
通过上下文来表示一个词
比如starts,通过计算上下文中每个词出现的次数(重要性),通过这个频次我们可以构造向量,然后通过向量去计算任意两个词之间的相似度
但是需要存储的空间变大,并且由于有些词出现少,他的上下文也少,就导致他的向量很稀疏
Word Embedding
建立一个低维的向量空间,尝试把每一个词都学习到这个空间里面,用空间中的位置表示词。
这种低维向量是可以利用大规模数据自动学习的
eg:Word2Vec
二、语言模型
语言模型就是根据前文预测下一个词是什么
两个能力:
(1)计算多个单词连成一句话的概率,让人读起来更通顺
(2)根据前文的多个单词推测下一个单词
公式表示
eg:
构建语言模型
N-gram Model
eg:4-gram 即在大规模数据集中,统计已经出现的连续三个词,后面出现第四个词的概率
存在问题:
Neural Language Model
借助了深度学习的知识
1、将每个词学习到低维空间,用低维空间中的向量表示。
2、通过上下文来推断下一个词是什么
比如这里考虑了三个词,将这三个词转化为向量表示,然后组成一个更大的项链,通过 tanh激活函数,来预测下一个词是什么。
三、论文阅读
A Neural Probabilistic Language Model