自然语言处理简明教程——序言、第一章

序言:

0.1自然语言与人工语言的区别:

(1)自然语言充满歧义,而人工语言的歧义是可以控制的

(2)自然语言的结构复杂多样,而人工语言的结构相对简单

(3)自然语言的语义表达千变万化,迄今还没有一种简单而通用的途径来描述它,而人工语言的语义则可以由人来直接定义

(4)自然语言的结构和语义之间有着千丝万缕的、错综复杂的联系,一般不存在一一对应的同构关系,而人工语言则常常可以把结构和语义分别进行处理,人工语言的结构和抑 

          郁之间有着整齐的一一对应的同构关系

          自然语言的这些独特性质,使得自然语言处理成为人工智能领域的一大难题。

0.2 自然语言处理与计算语言学的概念区别:

自然语言处理这个术语主要用于说明方法,计算语言学这个术语主要用于说明理论

0.3当前自然语言处理的发展方向:

(1)随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标,概率和数据驱动的方法几乎成为了自然语言处理的 标准方法

(2)自然语言处理中越来越多地使用机器学习的方法来获得语言知识

(3)统计数学方法越来越受到重视

(4)自然语言处理中越来越重视词汇的作用

(5)多语言在线自然语言处理技术迅猛发展,这是由于网络的发展,互联网逐渐变成一个多语言的网络世界,互联网上的机器翻译、信息检索、信息抽取等问题的处理变得更加紧迫

在书中的18页,冯老师列举了介绍计算语言学原理的书籍,都是冯老师曾经的作品

第一章

1.1自然语言处理中形式模型的归纳(by:冯志伟老师)

(1)基于短语结构语法的形式模型:主要有乔姆斯基的短语结构语法,递归转移网络和扩充转移网络,自底向上分析法与自顶向下分析法,通用句法生成器和线图分析法,Earley算法,左角分析法,CKY算法,Tomita算法,乔姆斯基的管辖—约束理论与最简方案,尤喜(A.Joshi)的树邻接语法等
(2)基于合一运算的形式模型:主要有卡普兰(R.M.Kaplan)的词汇功能语法,马丁•凯依的功能合一语法,盖兹达(G.Gazdar)的广义短语结构语法,锡伯(Shieber)的PATR,珀拉德(C.Pollard)的中心语驱动的短语结构语法,佩瑞拉(F.Pereira)的定子句语法等
(3)基于依存和配价的形式模型:主要有泰尼埃(L.Tesni`ere)的依存语法,德国学者的配价语法,哈德森(Hudson) 的词语法等
(4)基于格语法的形式模型:主要有菲尔默(C.J.Fillmore)的格语法和框架网络
(5)基于词汇主义的形式模型:主要有格罗斯(M.Gross)的词汇语法,斯里托(Sleator)和汤佩雷(Temperley)的链语法,词汇语义学,词网(WordNet)等
(6)基于概率和统计的形式模型:主要有N元语法,隐马尔科夫模型,最大熵模型,条件随机场,查尼阿克(Charniak)的概率上下文无关语法和词汇化的概率上下文无关语法,Bayes公式,动态规划算法,噪声信道模型,最小编辑距离算法,决策树模型,加权自动机,Viterbi算法,向前算法等
(7)语义自动处理的形式模型:主要有义素分析法、语义场理论,语义网络理论,蒙塔古的蒙塔古语法,威尔克斯(Y.A.Willks)的优选语义学,尚克(R.C.Schank)的概念依存理论,梅里楚克(Mel‘chuk)的意义—文本理论等
(8)语用自动处理的形式模型:主要有曼(Mann)和汤姆生(Tompson)的修辞结构理论,文本连贯中的常识推理技术等

1.2 四种影响较大的逻辑语法

(1)定子句语法(DCG)
(2)外位语法(XG)
(3)修饰成分结构语法(MSG)
(4)约束逻辑语法(PLG)

1.3 词汇语义学 ***(与目前的工作相关)

词汇语义学(Lexical Semantics)是现代语义学和现代词汇学结合的产物,其研究对象是语言中的词义问题。它源于语言学,并与语义网、本体论、词典编纂、知识表示等人工智能和认知科学密切相关

1.4 自然语言处理对社会进步的重要作用

主要是介绍了几个自然语言处理的具体应用,如:自动生成天气预报、作文自动评分、语音地理导航灯

1.5 语言符号的特点

冯老师自己在索绪尔(《普通语言学教程》)的基础上,总结了语言符号的7个特点:语言符号的层次性、语言符号的非单元性、语言符号的离散性、语言符号的递归性、语言符号的随机性、语言符号的冗余性、语言符号的模糊性
应用于神经网络机器翻译的无显式分割字符级解码器 A character-level decoder without explicit segmentation for neural machine translation (2016) 作者J. Chung et al. 探索语言建模的局限性 Exploring the limits of language modeling (2016) 作者R. Jozefowicz et al. 教机器阅读和理解 Teaching machines to read and comprehend (2015) 作者 K. Hermann et al. 摘要:教机器阅读自然语言文档仍然是一个难以应付的挑战。对于看到的文档内容,我们可以测试机器阅读系统回答相关问题的能力,但是到目前为止,对于这种类型的评估仍缺少大规模的训练和测试数据集。在这项工作中,我们定义了一种新的方法来解决这个瓶颈,并提供了大规模的监督阅读理解数据。 这允许我们开发一类基于attention的深层神经网络,凭借最少的语言结构的先验知识来学习阅读真实文档和回答复杂的问题 。 attended-based神经网络机器翻译有效策略 Effective approaches to attention-based neural machine translation (2015) 作者 M. Luong et al. 通过共同学习对齐和翻译实现神经机器翻译 Neural machine translation by jointly learning to align and translate (2014) 作者 D. Bahdanau et al. 利用神经网络进行序列到序列的学习 Sequence to sequence learning with neural networks (2014) 作者I. Sutskever et al. 用 RNN 编码——解码器学习短语表征,实现统计机器翻译 Learning phrase representations using RNN encoder-decoder for statistical machine translation (2014) 作者K. Cho et al. 一个为句子建模的卷积神经网络 A convolutional neural network for modelling sentences (2014) 作者 N. Kalchbrenner et al. 用于句子分类的卷积神经网络 Convolutional neural networks for sentence classification (2014) 作者Y. Kim Glove: 用于词表征的全局向量 Glove: Global vectors for word representation (2014) 作者 J. Pennington et al. 句子和文档的分布式表示 Distributed representations of sentences and documents (2014) 作者Q. Le and T. Mikolov 词、短语及其合成性的分布式表征 Distributed representations of words and phrases and their compositionality (2013) 作者T. Mikolov et al. 有效评估词在向量空间中的表征 Efficient estimation of word representations in vector space (2013) 作者T. Mikolov et al. 基于情感树库应用于情感组合研究的递归深度网络模型 Recursive deep models for semantic compositionality over a sentiment treebank (2013) 作者R. Socher et al.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值