语言的数学本质
字母、文字和数字实际上是信息编码的不同单位。任何一种语言都是一种编码方式,语言的语法规则就是编解码的算法。
编码:我们把要表达的意思通过某种语言的一句话表达出来。解码:对方懂这门语言,通过这门语言的解码方法获得说话人想要表达的信息。
机器智能
图灵测试(Turing Test): 验证机器是否有智能的方法是,让人和机器交流,如果人无法判断自己交流的对象是人还是机器,那么机器就具有智能。
自然语言处理分为两个阶段:第一阶段用电脑模拟人脑(类似于仿生学),成果近乎为0;第二阶段基于数学模型和统计的方法,取得了进展。
早期的研究主要是在“句法分析”和“语义分析”两方面。在句法分析上,科学家们通过构造语法分析树、文法分析器(Parser)分析句子的句法。存在两个方面的问题:1,文法规则的数量不仅庞大, 而且会逐渐增加,甚至会产生矛盾;2,自然语言中有词义和上下文相关的特性,计算量非常非常大。(Context Dependent Grammar)
在语义处理上,遇到了更大的麻烦:多义性严重依赖上下文甚至是常识等等问题。
从规则到统计
基于统计方法的核心是通信系统加隐含马尔可夫模型。
只有基于有向图的统计模型才能很好地解决复杂的句法分析。