第一章 文字和语言 vs 数字和信息
数字、文字和自然语言一样,都是信息的载体,它们之间本有着天然的联系。
语言和数学的产生都为了同一个目的——记录和传播信息。
语言的出现是为了人类之间的通信。字母、文字和数字实际上是信息编码的不同单位。任何一种语言都是一种编码方式,而语言的语法规则是编解码的算法。我们把一个要表达的意思,通过某种语言的一句话表达出来,就是用这种语言的编码方式对头脑中的信息做了一次编码,编码的结果出来就是一串文字。而如果对方懂得这门语言,他或者她就可以用这门语言的解码方式获得说话人要表达的信息。这就是语言的数学本质。
1、信息
声音传播信息的过程。包括信息的产生、传播、接收和反馈,这与今天最先进的通信在原理上没有任何差别。
2、文字和数字
文字
词汇源于语言描述的共同要素,如物体、数量、动作等,是其抽象的结果。
语言和词汇的丰富使得人脑无法记住所有词汇,由此产生文字以高效记录信息。(但要明白,文字只是信息的载体,而非信息本身。)
随文明进步信息量增加,记不住那么多文字,于是开始了概括和归类,e.g 读音相同的词可能用同一个符号记录。聚类出现。
这种概念的聚类,原理上与今天自然语言处理或者及其学习的聚类有很大相似性,在远古,完成这个过程需要上千年,而今缘于计算机的发展,可能只需要几天甚至几小时。
文字按照意思来聚类,会带来歧义,解决方式:联系上下文。多数情况可以去除歧义。
不同文明拥有不同文字,随文明融合与冲突,产生了翻译的需求。
罗塞塔石碑破译对于历史学界和语言学界产生了重大影响 。(有很多翻译软件和服务都叫做“罗塞塔”。)
信息冗余是信息安全的保障。
语言的数据(即语料),尤其是双语或者多语的对照语料对翻译至关重要,这是我们从事及其翻译研究的基础。
数字
数字在早期只是承载信息的工具,并不具有任何抽象的含义。
阿拉伯数字标志着数字和文字的分离。
3、文字和语言背后的数学
任何事物的规律性都是内在的,并不随它的载体而改变。自然语言的发展,冥冥之中都受着信息科学规律的引导。
编码
从象形文字到拼音文字是一个飞跃,因为人类在描述物体的方式上,从物体的外表进化到了抽象的概念,同时不自觉采用了对信息的编码。
不仅如此,在对文字的便马上非常合理。总体来讲,常用字短,生僻字长。这完全符合信息论中的最短编码原理。
将日常的白话口语写成精简的文言文本身是信道压缩的过程,这个现象与宽带互联网和移动互联网上的视频播放设定完全一致。
校验码
犹太人抄写完一页《圣经》时,需要把每一行的文字加起来,看着新的校验码和原文是否相同,来判断该页是否抄写有误。
如果说从字母到词的构词法是词的编码规则,那么语法则是语言的编码和解码规则。不过相比较而言,词可以被认为是有限而且封闭的集合,而语言则是无限和开放的集合。从数学上讲,对于前者有完备的编解码规则,而后者不具备这个特性。所以有正统而教条的语言学家倾向于把哲别语法规则覆盖不到的地方称为“病句”,并致力与消灭病句,纯化语言。
那么到底是语言对,还是语法对。前者坚持从真实的语句文本(称为语料)出发,而后者坚持从规则出发。