一、基本概念
- 自然语言处理(Natural Language Processing):用计算机可计算的方法对自然语言的各级语言单位(字、词、语句、篇章等)进行转换、传输、存贮、分析等加工处理的理论和方法。
- 语言:人类所特有的用来表达意思、交流思想的工具,是一种特殊的社会现象。三种类型:孤立语、曲折语、黏着语
- 自然语言是指人类日常使用的语言,如汉语、英语、法语、德语,等等。
- 处理:对信息的接收、存储、转化、传送和发布等操作。
- 语言处理的两个层次:
一 字符处理(输入、存储、输出)
一 内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译…等等)
二、NLP的发展历程
- 20世纪50年代起步
- 60年代中期以前:萌芽期
- 60年代后期至70年代中后期:衰落
1966年美国科学院发表ALPAC报告 - 70年代中后期至80年代后期:复苏
- 80年代后期至今:蓬勃发展
- 统计方法占据主流
- 大规模语料可用,计算机性能大幅提高
- 互联网的迅速发展为NLP提供了实验数据来源和新的应用场景
三、NLP研究内容
按照应用目标划分,包括:
- 机器翻译(Machine translation,MT)
实现一种语言和另一种语言的自动翻译
应用:文献翻译、网页浏览辅助等 - 信息检索(Infomation retrival)
信息检索也称情报检索,就是利用计算机系统从大量文档中找到符合用户需要的相关信息。 - 自动文摘(Automatic summarization/abstracting)
将原文档的主要内容或某方面的信息自动提取出来,并形成原文档的摘要或缩写 - 问答系统(Question-answering system)
将计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的回答。 - 信息过滤(Information filtering)
通过计算机系统自动识别和过滤满足特定条件的文档信息。 - 信息抽取(Information extraction)
从指定文档中或海量文本中抽取出用户感兴趣的信息。 - 文档分类(Document categorization)
文本自动分类或信息分类,其目的就是利用计算机系统对大量的文档按照一定的分类标准实现自动归类。 - 语言识别(automatic speech recognition,ASR)
将输入语音信号自动转换成书面文字 - 文语转换/语音合成(text-to-speech synthesis)
将文本自动转换成对应的语音表征
基本问题:
- 形态学问题
- 研究词由有意义的基本单位-词素的构成单位 - 句法问题
- 研究句子结构成分之间的相互关系和组成句子序列的规则 - 语义问题
- 研究如何从一个语句中词的意义,以及这些词在该语句中句法结构中的作用推导出该语句的意义 - 语用学问题
- 研究在不同上下文中语句的作用,以及上下文对语句理解所产生的影响 - 语音学问题
- 研究语音特性、语音描述、分类及转写方法等
四、基本研究方法
- 理想主义方法
以语言学理论为基础,强调语言学家对语言现象的认识,采用非歧义的规则形式描述或解释歧义行为或歧义特性。 - 经验主义方法
以基于语料库的统计分析为基础,该方法更重用数学方法,从能代表自然语言规律的大规模真实文本中发现知识,抽取语言现象或统计规律 - 两者区别
研究对象不同、理论基础不同、范围不同、方法不同