历史起源
远古时代,动物们是通过吼声来传递信息的,吼声的特征蕴含了一定的信息,如有食物,表达敌意等。这是信息最简单的表示传播方法。
但是当信息开始变得复杂多样时,比如:
- 我去追那只快病死的鹿,把他赶到东边,你在东边守着
- 我去追那只快病死的鹿,把他赶到西边,你在西边守着
- 我去追那只小鹿,把他赶到悬崖上,你在那守着
- 你去追那只快病死的鹿,把他赶到西边,你在西边守着
此时如果再使用吼声来表示上面的情况就有点无能为力了,因此我们的祖先将“我”,“你”,“东边”,“西边”等意思抽象出来,通过它们的排列来表示上述的语句,就形成了文字。
数字的产生也是来自于实际生产生活中的需要,最重要的不是表示数字使用什么符号,而是进制。对大数的表示,采用进制之后会方便很多。一万不再需要一万个点,而是可以按一定的规则使用“万”“千”“百”“十”来表示。印度人更进一步,发明的阿拉伯数字的编码方法解决了我们小时候思考的问题:万万为亿,万亿为兆,兆兆是什么?通过位数的方法解决了量词不够的问题。
不变的原理
歧义性
出于表达的需要,早期的人类文明不约而同的创造了大约5000个左右的文字,尽管形状各异,但本质都只是符号而已。文字数量并未增加的原因一是人的记忆力优先,二是文字出现了多义性,但多义性也是歧义性。编码时使用多义性来避免多使用一个符号,解码上便要耗费精力来对多义进行取舍,在实际操作中取舍依靠的是上下文。歧义性的处理到今天仍然是这个原理。
信道
中国古代的文字是相当简短的,甚至称为“微言大义”,但是语言学研究表明,中国古代人们说的文字可能和今天的白话文一样冗长,背后的原因是信道的宽窄。
在通信时,如果信道宽,则信息不必压缩直接传输。若信道窄,则需要发送前压缩,接收后解压。
口语的信道是空气,空气传播快且方便,则信道宽。人们说话方便,语言可以冗长,但求直白,易懂,无歧义。文字的信道是纸张,纸笔难求,故而信道窄。在纸上书写文字代价较大,因此要求文字简短,相当于压缩。阅读的人也需要一定的阅读能力,相当于接受后解压。
校验
校验最早的使用场景犹太人抄写《圣经》,《圣经》在传播的过程中发生过多次修订,在抄写的过程容易发生错误,犹太人在每一行,一段,一页抄写完之后,将其中的文字对应的数字累加起来,这个数字便作为校验码,与原本上的数字核对,这便是校验的原理,使用冗余信息来保证正确性。
编码规则
无论是象形文字还是字母文字,都是常用的简单,不常用的复杂,这是信息论中的最短编码原理。Huffman编码便采用了这种思想,频率高的字符使用较短的编码。
思考
语言的本质是用来传递表示信息,而通信是研究信息交流交换的学科,我感觉不少通信中的原理可以用于自然语言处理中。