摘录:翻译这件事之所以能达成,仅仅是因为不同的文字系统在记录信息上的能力是等价的。
文字只是信息的载体,而非信息本身。
不同的文明进行交流时,或许会用不同的文字记载同一件事。
语言学研究方法的问题:到底是语言对,还是语法对。前者坚持从真实的语言文本(称为语料)出发,而后者坚持从规则出发。最后前者胜利。
字母(或者中文中的笔画),文字和数字实际上是信息编码的不同单位。任何一种语言都是一种编码方式,而语言的语法规则是编解码的算法。我们把一个要表达的意思,通过某种语言的一句话表达出来,就是用这种语言的编码方式对头脑中的信息做了一次编码,编码的结果就是一串文字。而如果对方懂得这门语言,他或者她就可以用这门语言的解码方式获得说话人要表达的信息。这就是语言的数学本质。
计算机能够处理自然语言;它处理自然语言的方法和人类一样。
图灵测试:如果人无法判断和自己交流的对象是人还是机器,就说明这个机器有智能。
对于上下文无关文法,算法的复杂度基本上是语句长度的二次方。
对于上下文有关文法,是语句长的的六次方。
基于统计的自然语言处理方法,在数学模型上和通信是相通的,甚至就是相同的。因此,在数学意义上自然语言处理又和语言的初衷----通信联系在一起了。