1.总述
人类对机器理解语言的认识走了一条大弯路。早期的研究集中采用基于规则的方法,虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化。直到20多年后,人们开始尝试用基于统计的方法进行自然语言处理,才有了突破性的进展和实用的产品。
2.前文回顾
上一篇讲到,语言的出现是为了人类之间的通信。字母(或者中文的笔画)、文字和数字实际上是信息编码的不同单位。任何一种语言都是一种编码的方式,而语言的语法规则是编码的算法。我们把一个要表达的意思,通过某种语言的一句话表达出来,就是用这种语言的编码方式对头脑中的信息做了一次编码,编码的结果就是一串文字。而如果对方懂得这门语言,他或者她就可以用这门语言的解码方法获得说话人要表达的信息。这就是语言的数学本质。虽然动物也能做到传递信息,但是利用语言来传递信息是人类的特质。
编码 解码
信息(信息源)------>信息(信道)------->信息(接收者)