目录
读书笔记:《数学之美 第二版》(吴军 著)
第一章 文字和语言 vs 数字和信息
语言和数学的产生都是为了同一个目的——记录和传播信息,直到香农博士提出信息论,人们才开始把数学和信息联系起来。
1.信息
早期祖先们一开始传递信息和一般的动物一样,通过叫喊以及肢体语言来传达信息,当时这些需要人类互相传播和了解的信息很少,也就没有语言和数字的需要,但当这些表达已经无法满足生活中的各种物件和事件信息的表示时,语言就出现了,作为表示信息的载体。
2.文字和数字
1️⃣文字
人类开始迅速学习新的事物,语言也越来越丰富,所表示的信息也越来越多样,渐渐从具体的语言到抽象的词汇,但是人类仅仅依靠大脑是记不住所有的词汇的,文字便成了高效的记录方法。古埃及人发明了最早的保存信息的方式——用图形表示事物,这就是最早的象形文字。但是当文明的发展并不会使文字的数量再度上升时(没有人可以记住这么多的文字),第一次概括和归类便开始了。【吴老师举了一个中国的象形文字“日”:本意为太阳,但也是记录一天的时间周期(单位)】
文字按照意思来聚类,最终会带来一些歧义,大部分通过上下文的理解来消除。翻译的成功,不过是因为不同的文字系统在记录信息上的能力是等价的,只是信息从一种载体向另一种载体的转化。有了文字,前人的生活经验和发生的事件便一代代传了下来。1822年,法国语言学家商博良(Jean François Champollion)破解了罗塞塔石碑上的古埃及象形文字,文字本事不重要,其所记录的信息才是最重要的。
“对于我这个长期从事自然语言处理的学者来讲,这件事有两点指导意义:1)信息的冗余是信息安全的保障。2)语料对翻译至关重要”
2️⃣数字
迄今为止发现的最早的人类计数工具便是狒狒腓骨上用于计数的划痕。早期数字并没有书写的形式,而是掰手指头(十进制),但渐渐人们发现十个指头不够用,我们的祖先很聪明,发明了进位制,开始懂得对数量进行编码了(在中国解码的规则是乘法),这是人类的一大飞跃。【今天全世界通用的数字——阿拉伯数字,是古印度人发明的,由阿拉伯人传入欧洲,却被不明真相的欧洲人把功劳“二道贩子”阿拉伯人】(emmmmmm……洛必达的气息)
3.文字和语言背后的数学
“但是,任何事物的规律性都是内在的,并不随它的载体而改变”
1️⃣楔形文字
一种拼音文字,最初刻在泥板和石板上,“每个形状不同的楔子实际上是一个不同的字母。”
2️⃣编码
我们祖先对文字的编码还非常合理,常用字短,生僻字长,这完全符合信息论中最短编码原理,常用字书写简单省时间、省材料。
3️⃣《圣经》
提问:教徒在抄写圣经时如何发现抄写错误?
“《圣经》的写作持续了很多世纪,后世之人在做补充时,看到的是几百年前甚至是上千年前原作的抄本。抄写的错误便在所难免。”
犹太人发明了一种类似于如今的校验码的方法:用于书写《圣经》内容的希伯来字母中,所有不同的每一个字母对应一个数字,这样每行文字叫起来便得到一个特殊的数字,这个数字便成了这一行的校验码,同时,对于每一列也是这样处理。当学者抄完一页后就需要把每一行的文字加起来,看看新的校验码是否和原文相同,然后对每一页进行同样的处理。(引用:Williams, Fred."Meticulous Care in the Transmission of the Bible."Bible Evidences, n.d.Accessed October 11,2008.)
4️⃣语言和语法
任何语言都有语法规则覆盖不到的地方,这些例外或者说不精确性,让我们的语言丰富多彩。
这就涉及到一个语言学研究方法的问题:到底是语言对,还是语法对。前者坚持从真实的语句文本(称为语料)出发,而后者坚持从规则出发。自然语言处理最终宣布了前者的胜利。