文字和语言 VS 数字和信息
香农-信息论
今天信息科学通信的基本原理是,如果信道较宽,信息不必压缩就可以直接进行传递;如果信道很窄,信息在传递之前要尽可能的压缩,然后在接收端进行解压缩。在古代,两个人说话很快是一个宽信道,无需压缩;而书写则是一个窄信道需要压缩也即是文言文的简洁性的一种体现。
不得不说古人的一些做法还是很有智慧的,比如圣经的抄写时候为了校验每一页抄的对与否,通过让每个文字代表一个数字,则每行有个值每列也有个值,则可以检验和原版这一页是否相同。所以现在社会的发达,信息传输方式的改变但是最基本的思想可能古代人的智慧还是能够给我们一些启发。
自然语言从规则到统计
由于自然语言的丰富性,以及对上下文语义的依赖性,对于自然语言的理解是有一定困难的。最初人们想到的方法是规则即对自然语言用规则去解释比如:我要去吃饭。主语【我】谓语【要去吃饭(动词)】句号【。】但是对于复杂的很长句子,我们在用规则去解释就会受到一定的束缚。后来基于统计方法的语言分析又被提出去解释自然语言。这在某种程度上来说是好的,因为常用的东西可以基本有80%甚至更多,从而可以做些粗略的判断,但是对于精确的系统还是不能够满足。
统计语言模型
自然语言很大程度上依赖于上下文,一个基本的问题就是为自然语言的上下文相关的特性建立数学模型。也即是常说的统计语言模型(Statistical Language Model)。
在数理统计中,之所以敢于用采样数据的观察结果来预测概率,是因为有大数定理(Law of Large Numbers)在背后作支持,它的要求是有足够的观测值。但是如果没有足够的训练数据的话,就可以通过平滑过渡的方法解决零概率和小概率的问题。