数字、文字和自然语言一样,都是信息的载体,它们之间原本有着天然的联系。
语言和数学的产生都是为了同一个目的——记录和传播信息。
1 信息
随着人类的进步和文明化的发展,需要表达的信息也越来越多,不再是几种不同的声音就能覆盖,语言就此产生。
2 文字和数字
当语言和词汇多到一定程度,人类仅靠大脑已经记不住所有词汇了。于是,高效记录信息的需求就产生了,这便是文字的起源。
文字按照意思来聚类,最终会带来一些歧义性。解决这个问题的方法,过去和现在没有什么不同,都是依靠上下文。对上下文建立的模型在好,也有失灵的时候,这是语言从产生伊始就固有的特点。
翻译这件事之所以能达成,仅仅是因为不同的文字系统在记录信息上的能力是等价的。文字只是信息的载体,而非信息本身。
罗塞塔石碑的启发:
(1)信息的冗余是信息安全的保障。
(2)语言的数据,我们称之为语料,尤其是双语或者多语的对照语料对翻译至关重要,它是从事机器翻译的基础。
数字:
中国:用个十百千万亿兆。解码的方法是乘法。200万的写法含义是:2 x 100 x 10000
罗马:用字符I表示1,V表示5,X表示10,L表示50,C表示100,D表示500,M表示1000.解码的方法是加减法——小叔子出现在大数字左边为减,右边为加。比如:IV表示:5-1=4;VII表示:5+2=7;IIXX表示:20-2=18
阿拉伯数字的革命性不仅在于它的简洁有效,而且标志着数字和文字的分离。
3 文字和语言背后的数学
任何事物的规律都是内在的,并不随它的载体而改变。自然语言的发展,在冥冥之中都受着信息科学规律的引导。
从象形文字道拼音文字是一个飞跃,因为人类在描述物体的方式上,从物体的外表进化到了抽象的概念,同时不自觉的采用了对信息的编码。
在通信时,如果信道较宽,信息不必压缩就可以直接传递;如果信道很窄,信息在传递前需要尽可能的压缩。然后在接收端进行解压缩。