序言:
0.1自然语言与人工语言的区别:
(1)自然语言充满歧义,而人工语言的歧义是可以控制的
(2)自然语言的结构复杂多样,而人工语言的结构相对简单
(3)自然语言的语义表达千变万化,迄今还没有一种简单而通用的途径来描述它,而人工语言的语义则可以由人来直接定义
(4)自然语言的结构和语义之间有着千丝万缕的、错综复杂的联系,一般不存在一一对应的同构关系,而人工语言则常常可以把结构和语义分别进行处理,人工语言的结构和抑
郁之间有着整齐的一一对应的同构关系
自然语言的这些独特性质,使得自然语言处理成为人工智能领域的一大难题。
0.2 自然语言处理与计算语言学的概念区别:
自然语言处理这个术语主要用于说明方法,计算语言学这个术语主要用于说明理论
0.3当前自然语言处理的发展方向:
(1)随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标,概率和数据驱动的方法几乎成为了自然语言处理的 标准方法
(2)自然语言处理中越来越多地使用机器学习的方法来获得语言知识
(3)统计数学方法越来越受到重视
(4)自然语言处理中越来越重视词汇的作用
(5)多语言在线自然语言处理技术迅猛发展,这是由于网络的发展,互联网逐渐变成一个多语言的网络世界,互联网上的机器翻译、信息检索、信息抽取等问题的处理变得更加紧迫
在书中的18页,冯老师列举了介绍计算语言学原理的书籍,都是冯老师曾经的作品
第一章
1.1自然语言处理中形式模型的归纳(by:冯志伟老师)
(1)基于短语结构语法的形式模型:主要有乔姆斯基的短语结构语法,递归转移网络和扩充转移网络,自底向上分析法与自顶向下分析法,通用句法生成器和线图分析法,Earley算法,左角分析法,CKY算法,Tomita算法,乔姆斯基的管辖—约束理论与最简方案,尤喜(A.Joshi)的树邻接语法等
(2)基于合一运算的形式模型:主要有卡普兰(R.M.Kaplan)的词汇功能语法,马丁•凯依的功能合一语法,盖兹达(G.Gazdar)的广义短语结构语法,锡伯(Shieber)的PATR,珀拉德(C.Pollard)的中心语驱动的短语结构语法,佩瑞拉(F.Pereira)的定子句语法等
(3)基于依存和配价的形式模型:主要有泰尼埃(L.Tesni`ere)的依存语法,德国学者的配价语法,哈德森(Hudson) 的词语法等
(4)基于格语法的形式模型:主要有菲尔默(C.J.Fillmore)的格语法和框架网络
(5)基于词汇主义的形式模型:主要有格罗斯(M.Gross)的词汇语法,斯里托(Sleator)和汤佩雷(Temperley)的链语法,词汇语义学,词网(WordNet)等
(6)基于概率和统计的形式模型:主要有N元语法,隐马尔科夫模型,最大熵模型,条件随机场,查尼阿克(Charniak)的概率上下文无关语法和词汇化的概率上下文无关语法,Bayes公式,动态规划算法,噪声信道模型,最小编辑距离算法,决策树模型,加权自动机,Viterbi算法,向前算法等
(7)语义自动处理的形式模型:主要有义素分析法、语义场理论,语义网络理论,蒙塔古的蒙塔古语法,威尔克斯(Y.A.Willks)的优选语义学,尚克(R.C.Schank)的概念依存理论,梅里楚克(Mel‘chuk)的意义—文本理论等
(8)语用自动处理的形式模型:主要有曼(Mann)和汤姆生(Tompson)的修辞结构理论,文本连贯中的常识推理技术等
1.2 四种影响较大的逻辑语法
(1)定子句语法(DCG)
(2)外位语法(XG)
(3)修饰成分结构语法(MSG)
(4)约束逻辑语法(PLG)
1.3 词汇语义学 ***(与目前的工作相关)
词汇语义学(Lexical Semantics)是现代语义学和现代词汇学结合的产物,其研究对象是语言中的词义问题。它源于语言学,并与语义网、本体论、词典编纂、知识表示等人工智能和认知科学密切相关
1.4 自然语言处理对社会进步的重要作用
主要是介绍了几个自然语言处理的具体应用,如:自动生成天气预报、作文自动评分、语音地理导航灯
1.5 语言符号的特点
冯老师自己在索绪尔(《普通语言学教程》)的基础上,总结了语言符号的7个特点:语言符号的层次性、语言符号的非单元性、语言符号的离散性、语言符号的递归性、语言符号的随机性、语言符号的冗余性、语言符号的模糊性