第一章:
1.信息传播的模型:
编码 解码 信道传输
2.翻译的条件:
不同语言文字的表达能力是等价的,仅仅是编码的方式有所区别
3.典型案例:
古埃及的罗塞塔碑,通过三种不同的文字记录
计数系统也是一种编码形式
古玛雅人采用20进制,古代中国解码的方式是乘法,古代罗马的解码方式是加减法,古印度人发明了阿拉伯数字(更加的抽象)
中国的象形文字 -> 西方的拼音文字 具体 -> 抽象
常用字短,生僻字长,符合最短编码原理
4.语言学研究的问题:
(1)语言对 (2)语法对 通过实践的检验,发现(1)种方法更加的有效
第二章:自然语言处理 (从规则到统计)
字母,文字和数字实际上是不同的编码方式。语言的语法规则是编解码的算法。
1.机器智能:
图灵测试:留下了一个问题。
早期科学家研究自然语言局限在 人类学习语言的方式上,考虑模拟人脑,但人脑结构机器复杂,导致没有什么成果。
20世纪70年代开始,开始考虑基于数学模型和统计的方法,自然语言处理开始取得实质性的突破。
所谓的智能:其实都是统计学(任总还是高),门外汉才会认为计算机真的拥有了人的智能。
2.从规则到统计:
自然语言的多义性:依靠上下文甚至于常识
20世纪70年代基于统计的核心模型:通信系统加上马尔科夫模型
前期发展缓慢的原因:计算机的算力不够+语料不足
在数学意义上自然语言处理的初衷(通信)联系在一起
第三章:统计语言模型
计算机处理nlp的基本问题:为语言这种上下文相关的特性建立数学模型
1.用数学的方法描述语言
判断词划分的序列是否合乎规则,这条路走不通
解决办法:一个句子划分的是否合理,通过这个句子出现的可能性来衡量
公式表述:
这个式子告诉我们一个词出现的概率和它前面所有的词都是有关的
导致一个问题:尽管前面的概率容易计算,可是后面的概率非常难以计算
简化问题:假设词 出现的概率只和它前面的词 有关(马尔可夫假设)
公示表述:
对应的统计模型称为二元模型(Bigram Model)
核心:如果估计
只需要估计联合概率和边缘概率
如果有专业的语料库,计算相对频度
根据大数定理,如果统计量足够,相对频度等于频率:
这么简单的模型是否有效呢?非常有效
2.统计语言模型的工程诀窍
2.1高阶语言模型
常用的是3元模型,空间复杂度和时间复杂度指数增长
局限性:上下文之间的相关性可能会距离很远,提高阶数也无可奈何。
解决方案:采用其他的长程的依赖性。
2.2 模型的训练、零概率问题和平滑方法
统计的可靠性问题:大数定理要求足够多的观测值
对于样本不足时的估计:
古德-图灵估计:在统计中相信可靠地统计数据,而对不可信的统计数据打折扣的一种概率估计方法,同时将打折扣出来的那一小部分给予未看见的事件。
2.3语料的选取问题
训练数据需要和应用一致,效果才会更好