数学之美-读书笔记-1-5章

第1章 文字和语言vs数字和信息

本章带我们回到远古,回到语言、文字和数字产生的时代;

信息

早期人类会传播信息嘛?早期的人类如何传播信息?

  • 早期的人类其实就已经会传播信息了;
  • 只不过当时的信息比较简单,吱吱呀呀的声音;
  • 比如用某种特定的声音提示伙伴,表示“那里有只熊”;同伴可能也会吱吱两声,表示收到了信息

就上面简单的信息传递过程,其实也体现出了信息传播的模型:

  • 信息在信息源处 经过编码 传入信道 经过解码 传给接收者
  • 三要素:信息源、信道、接收者

因为早期人类了解到的信息很少,因此它们并不需要语言和数字,比如,它们想说那里有只熊,只需要手指着,呀呀两声就好了;

文字和数字

思考下语言是如何产生的?

  • 作者并没有解释,只是简单的说了下:
  • 我们祖先迅速学习新事物,语言也越来越丰富,越来越抽象

随着文明的发展,语言的共同要素:物体、数量、动作便被抽象出来;

当语言和词汇多到一定程度时,人们记不住了,高效记录信息的需求就产生了,这便是文字的起源

随着文明的发展,文字越来越多,问题是太多的话人们记不住,于是出现了“概念的第一次概括和归类”,这种概括和归类与机器学习中的聚类算法十分类似;

文字经过归类后,难免会产生歧义,比如中国古代的文言文,同理中国古代学者对儒家经典的注释和正义,其实都是在按照自己的理解做消除歧义性的工作;

埃及人通过文字记录了他们生活中很重要的信息,这使得我们对5000年前的埃及的了解要比1000年前的玛雅文明的了解要多得多,这要归功于埃及人通过文字记录了他们生活中最重要的信息,这能给我们一些指导意义:

  1. 信息的冗余是信息安全的保障,这里的信息安全是考虑的是信息的保存,而不是隐私保护;
  2. 语言的数据,称为语料对翻译至关重要,它是我们从事机器翻译研究的基础;

那么数字为什么出现呢?

  • 是因为人们的财产多到了需要数一数才能知道的程度,所以产生了计数系统;
  • 这个解释很有意思,不过很有道理;

最简单的计数系统:掰手指,所以手指头不够用了怎么办?简单暴力的方法:用脚指!

历史证明,使用脚指的这种文明消失掉了,那就是玛雅文明,他们采用20进制,因此玛雅人的一个世纪是四百年,而2012年刚好是这个太阳纪的最后一年,这就是讹传的世界末日;

我们的祖先也发现了手指头不够用了,我们的祖先很聪明,他们发明了进位制,中国人用个十百千万兆亿,罗马人用I表示1,V表示5,X表示10,L表示50等;

那么10亿分别用这两种方法如何表示?

  • 如果用罗马人的计数法表示的话,可能需要写满一个黑板。
  • 而我们的祖先的表示方法就是 10亿,很简洁;
  • 所以得出结论,中国人的编码要比罗马人的编码有效;

描述数字最厉害的人是古印度人,他们发明了包括0在内的10个阿拉伯数字,阿拉伯数字我们至今仍然在使用;

文字和语言背后的数学

拼音文字诞生于两河流域附近,之后经过了很多年的发展,传给了古希腊人发展,在他们那里拼写和读音已经紧密结合起来了;

从象形文字到拼音文字是一个飞跃,因为人们已经懂得对信息进行编码;

在罗马体系的文字中,常用字短,生僻字长,这就是信息论中的最短编码理论;

古希腊时期,语法出现,语法可以理解成语言的编码和解码规则,但是任何语言都有语法规则覆盖不到的地方,这些例外和不精确使得我们的语言丰富多彩;

语法的地位如何呢?

  • 是让语言的表达更准确、更丰富的至关重要的因素;
  • 但是语法也有其缺点,即不能覆盖所有;

小结

讲了文字、语言和数字的历史,目的是帮助读者感语言和数字天然的、内在的联系;

比如抽象概括的思想、比如建立语法规则的思想等等;

第2章 自然语言处理-从规则到统计

前言

机器能不能理解自然语言?这里涉及到两个认知层面的问题:

  1. 机器能不能处理自然语言
  2. 如果能,是不是和人处理的方式一样?

这两个问题的答案都是YES;

机器智能

图灵测试的概念:让人和机器交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了;

20世纪50年代到70年代,人们一致认为:要让机器翻译或语音识别,只有让机器能理解自然语言,而做到这一点就必须让机器拥有类似我们人类这样的智能;事实证明,这个观点是错误的;

20世纪60年代,摆在科学家面前的问题是怎样才能理解自然语言,而关键点是分析语句和获取语义,然后建立了一系列语法规则,当然规则可能会非常庞大,而且建立的语法规则不能做到完全覆盖;

  • 从数学角度讲,程序设计语言是一种上下文无关文法,而自然语言是上下文有关文法;
  • 前者算法的复杂度是语言长度的2次方,后者算法的复杂度是语言长度的6次方;
  • 对于这样6次方的复杂度:当时的机器是处理不了的,即使今天,效果也不会很好;
  • 所以说,那时人们的错误貌似没有意识到,使用规则性方法来解决该问题的复杂度会如此之高!

从规则到统计

1970年后,统计语言学出现,关键人物是贾里尼克和他领导的IBM华生实验室,他们利用统计模型,将语音识别率从70%提高到90%;

当时基于统计学方法的核心模型是通信系统加隐含马尔可夫模型;

一直到20世纪90年代末期,统计学方法才变得更有说服力,其中一部分原因也是那些老科学家的退休,他们不愿接受新的想法···

小结

基于统计学的数学模型和通信模型是相通的,但是科学家们,用了几十年的时间才意识到这一点;

另外前段时间还有同学跟我说,现在的自动驾驶,国家必须出一些相关的法律法规来规定一些特殊情况,比如如何非撞不可,是撞老人还是撞小孩,我们争论了半天···,我说,现在的统计学模型,你根本无法加这种规则啊,这里面的判断,全都是一堆矩阵数字,根本没法理解···,争论了一晚上都争论无果;

不过我知道,规则这种东西是无穷无尽的,而现在的自动驾驶的基本方向也是用数据集去训练,都是统计学的方法,根本不是规则化,所以我觉得我那位同学说的很没谱;

第3章 统计语言模型

有关自然语言的处理,可以用一句话来概括:

  • 如何给上下文有关文法做一个合理、有效的数学模型?

1用数学的方法描述语言规律

假设S是一个句子, S = w 1 , w 2 , w 3 , ⋅ ⋅ ⋅ , w n S=w_1, w_2, w_3, ···, w_n S=w1,w2,w3,,wn,其中wi表示词,那么P(S)就可以表示成:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值