基础认知
自然语言处理也称自然语言理解(natural language understanding,NLU),从人工智能研究的一开始,它就作为这一学科的重要研究内容探索人类理解自然语言这一智能行为的基本方法。
语言学的目的是为了能够描述和解释我们周围的语言现象。人们对在自然语言处理中使用统计方法抱有的热情,在很大程度上是 因为他们看到了统计方法在解决实际问题时的前景,而这些问题正是传统方法无法解决的。大家对语言使用形式的频率感兴趣是有清晰的,毋庸置疑的科学原因的。(统计学是研究语言的一种方法)
语言和认知 是随机现象:把概率作为理解语言的一种科学方法的最基本论点认为,人类的认知是随机的,因此语言也是随机的,因为它是认知的一个完整部分。
在语言中,大部分句子都是二值可分的(合乎语法、不合乎语法),而且在大多数情况下,单词只使用一个词性,没有词性混合的现象。但是如果语言和认知作为一个整体,最好的解释就是概率,那么解释语言理论的中心内容就必须是概率论。
预备知识
概率论基本概念
概率
最大似然估计
条件概率
贝叶斯法则
随机变量
二项式分布
联合概率分布和条件概率分布
贝叶斯决策理论
期望和方差
信息论基本概念
熵
联合熵和条件熵
互信息
相对熵
交叉熵
困惑度
噪声信道模型
支持向量机
线性分类
线性不可分
构造核函数