目录
2.1 文本的表示
如何处理语言在计算机的存储和计算问题,是进行自然语言处理的第一步。朴素的基于规则的方法会导致资源的消耗和规则表达能力有限的情况。为了解决这些问题,基于机器学习的自然语言处理技术应运而生,其最本质的思想是将文本表示为向量,其中的每一位代表一个特征。利用这些值的加权求和计算,可以进行最后的判断,下面就文本的表示方法进行分析介绍。
2.1.1词的独热表示(One-hot Encoding)
所谓词的独热表示,即使用一个词表大小的向量表示一个词(假设词表为,则其大小为
),然后将词表中的第
个词
表示为向量:
在该向量中,此表的第个词在第
维上被设置为1,其余维为0。这种表达方式会因为不同词完全由不同的向量表示,所以即使两个词意相近,两个词的相似度仍会被计算为0.另外,在基于机器学习的方法时,独热模型会导致数据稀疏(Data Sparsity),从而导致现象没有被充分学习。
为解决上述问题,一般我们通过提取更多的和词相关的泛化特征,如次性特征、词义特征和词聚类特征等,但这也使得我们大部分精力放在了挖掘有效的特征上。
2.1.2词的分布式表示
1.分布式语义假设
基本思想:考虑上下文来推断词义和相关属性。通过对词表构建共现频次表,表中的每一项代表一个词与另一个词
(上下文)在同一个句子中的共现频次,每个词与自身的共现频次设为0。
但会造成至少以下三个问题
1. 高频词误导计算错误 如“我”与“。”经常在句子中出现,而分布式表示会将其视为有较高相似度。
2. 共现频次无法反映词之间的高阶关系。因为我们只构建了二元的共现频次表,所以词之间传递的深层关系我们仍无法知晓。
3. 稀疏性问题,向量中仍有大量的0。
2.点互信息
为了解决高频词误导计算我们有最基本的思想:如果一个词与很多词共现,则降低其权重;反之,若一个词只与个别词共现,则提高其权重。这种思想被称作点互信息(Pointwise Mutual Information ,PMI)。
对于词w和上下文c,其PMI计算为:
其中分子分母三项分别为w与c的共现概率,以及w和c分别出现的概率。
此外可以利用最大似然估计计算p的值