信息传播模型
早期人类交流举例,用某种特定的声音表示“那里有只熊”,同伴“呀呀”回应两声。早期人类的交流方式与现在的通信中的信息传播模型相同。
聚类、消歧
随着文明的进步,信息量增加了,但是因为没有人能够记住大量的文字,因此出现了概念的“聚类”。比如,在中国的象形文字中,“日”本意是太阳,同时又指的是一天;在古代埃及的象形文字中,读音相同的词可能用同一个符号进行记录。这种概念上的聚类,在原理上与今天NLP或者ML中的聚类有很大的相似性。
文字按照意思来聚类,最终会带来一些歧义性,解决这个问题的方法,就是依靠上下文。借助上下文,大多数情况下的多义字的去除歧义(Disambiguation)都可以做到。
翻译、语料库
翻译能够实现,就因为不同文字系统在记录信息上的能力是等价的。文字只是信息的载体,而不是信息本身。
罗塞塔石碑就起到了一个翻译的作用。
信息的冗余是信息安全的保障。只要有一份石碑内容保存下来,原有的信息就不会丢失。
语言的数据,我们称之为语料。
计数系统
之所以采用十进制,是因为人有十个手指头。)
阿拉伯数字的革命性在于标志着数字与文字的分离,这在客观上让自然语言研究和数学在几千年里没有重合的轨迹,且越走越远。
编码和最短编码
从象形文字到拼音文字是一个飞跃,因为人类在描述物体的方式上,从物体的外表进化到了抽象的概念,同时不自觉采用了对信息的编码。
在罗马体系文字中,常用字短,生僻字长,符合信息论中最短编码原理。
在书写文字的媒介价格高的时候,古文非常简洁、但是难懂,而古代的口语语句较长并且易于理解,符合通信的一个原理:如果信道较宽,那么信息不必压缩,就可以直接传递;如果信道较窄,那么需要在传递前尽可能压缩信息,收到后在接收端解压。
校验位
犹太人抄写圣经后,每个字母对应一个数字,需要把每一行的文字加起来,把每一列的文字加起来,形成校验码。
解码的规则、语法
语法就是语言的编码和解码规则。
词可以被认为是有限而且封闭的集合,而语言是无限和开放的集合。