第1章 文字和语言vs数字和信息
文字按照意思来聚类,最终回带来一些歧义。上下文建立的概率模型也会出现错误。
罗塞塔石碑对自然语言处理的两点指导意义:
1. 信息的冗余是信息安全的保障。
2. 语言的数据,我们称之为语料,尤其是双语或者是多语的对照语料对翻译至关重要,是我们从事机器翻译研究的基础。
最早的计数工具—斯威士兰的乐邦博古
十进制—编码—
象形文字—拼音文字
常用字短,生僻字长------信息论中的最短编码理论---语法、语言(自然语言处理认为语言是编码)
信息传递:信道较宽,不必压缩—讲话快
信道较窄,进行压缩—书信慢--------
信息校验(古犹太人)
第2章 自然语言处理—从规则到统计
字母(笔画)、文字和数字实际上都是信息编码的不同单位。语言是编码方式,语言规则是编译码的算法。
机器智能—计算机科学支付阿兰.图灵提出
自然语言处发展的两个阶段(60多年):
1.20世纪50年代到20世纪70年代,走弯路的阶段。用电脑模拟人脑,
2.之后,基于数学模型和统计的方法
不是靠计算机理解了自然语言,而是通过数学,更准确的说是靠统计
上世纪70年代的基于统计的方法核心模型是通信系统加隐含马尔可夫模型
1988,基于统计的机器翻译方法