数学之美学习笔记(1)

第1章    文字和语言vs数字和信息

文字按照意思来聚类,最终回带来一些歧义。上下文建立的概率模型也会出现错误。

罗塞塔石碑对自然语言处理的两点指导意义:

1.      信息的冗余是信息安全的保障。

2.      语言的数据,我们称之为语料,尤其是双语或者是多语的对照语料对翻译至关重要,是我们从事机器翻译研究的基础。

最早的计数工具—斯威士兰的乐邦博古

十进制—编码—

象形文字—拼音文字

常用字短,生僻字长------信息论中的最短编码理论---语法、语言(自然语言处理认为语言是编码)

信息传递:信道较宽,不必压缩—讲话快

         信道较窄,进行压缩—书信慢--------

信息校验(古犹太人)

第2章    自然语言处理—从规则到统计

字母(笔画)、文字和数字实际上都是信息编码的不同单位。语言是编码方式,语言规则是编译码的算法。

机器智能—计算机科学支付阿兰.图灵提出

自然语言处发展的两个阶段(60多年):

1.20世纪50年代到20世纪70年代,走弯路的阶段。用电脑模拟人脑,

2.之后,基于数学模型和统计的方法

不是靠计算机理解了自然语言,而是通过数学,更准确的说是靠统计

上世纪70年代的基于统计的方法核心模型是通信系统加隐含马尔可夫模型

1988,基于统计的机器翻译方法


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值