(from 人文学院开设课程)
目录
1. 自然语言处理概论
1.1 自然语言处理研究的意义、历史与现状
1.1.1 自然语言的特点
-
任何语言,包括书面语、口语或手语,都是由小的元素(语素或音素)分层递归地组合建构成较大的单元,依次组成音节、词汇、短语和句子,再由此组成段落和篇章。
-
这种递归组合由语法规则的层次结构决定,人类与其他动物的大脑区别是人类具有运用复杂层次结构模式语言的能力和处理递归结构的能力,同其他物种相比,人类可产生并理解复杂长句。
-
语言变化无穷,句子无限,但语言的语法类型是有限的,是可以归类、分析、统计和学习的。
-
从自然语言理解的角度看,句法学是研究句中各单词间的关系,语义学是研究词以及所指内容间的关系,而语用学是研究交互双方所涉及的上下文环境和背景知识,语言学知识包括世界知识、历史知识、常识性知识、各学科门类的专业知识等。
-
人类的知识是通过记载的文字、音像及自身的经历,经学习、训练、归纳、总结,从具体到抽象、从实践到理论逐步积累、逐步完善而形成的。
-
人类使用语言的表现形式有书面文字、口语和手语等,口语是人类最早的语言交流形式,其特点是口语语句简单、短小。口语使用的词汇大多数常用词汇,词汇丰富程度低于书面语言。
-
和口语相比,人类的文字只有几千年的记载历史,最早的汉字是产生于3500年前的甲骨文,是一种象形表意体系的文字,不同于印欧语言的表音体系文字。
-
部分汉字的意义根据偏旁部首(音旁、 义旁)能在大脑中反应出来,因书面语的语料相对容易获得,对书面语的研究相对更多也更深入。
-
人类可以高效的使用语言,而计算机处理语言的在性能和效率上均逊色于人脑,特别是计算机使用人类知识理解语言有诸多困难,导致计算机无法像人脑一样灵活运用语用背景知识来解决自然语言中的各种歧义。
-
当前随着科学技术、仪器设备和互联网技术的飞速发展,语言学研究和自然语言处理有可能取得理论与方法上的进展。
1.1.2 自然语言处理研究的意义
- 自然语言处理(Natural Language Processing ,NLP),是研究如何利用计算机来理解和生成自然语言的,即把计算机作为语言研究的工具,在计算机技术的支持下对语言信息进行定量化的研究,又被称为自然语言理解(Natural Language Understanding,NLU)或计算语言学 (Computational Linguistics)。
- 自然语言处理是一项十分庞大而繁复的工程,它是自然科学和社会科学交叉的学科,特别是计算机科学、语言学、逻辑学、心理学、信息科学的交叉学科。自然语言处理的目标是实现计算机对文字信息的自动分析和理解,它以对人脑及语言认知进行模拟的研究途径和实现为目标,立足于实验、理论和计算三大支柱,从而建立起多层次网络处理模型来阐明人脑语言信息处理系统,以取得突破性进展。
1.1.3 国外研究现状
自然语言处理的研究始于机器翻译。