1.自然语言处理的主要挑战
1.1 自然语言处理的主要挑战包括
- 基本问题
- 主要困难
NLP的研究内容有5大难点:没有规律、自由组合、开放集合、知识依赖和上下文信息。
2 NLP的基本问题
2.1 基本问题之一:形态学习问题
- 研究词有意义的基本单位——词素的构成问题
- 单词的识别/汉语的分词问题
- 词素:词根、前缀、后缀、词尾
- 例如:人,老虎=老+虎,图书馆=图+书+馆
2.2基本问题之二:句法问题
- 研究句子结构成分之间的相关关系和组成句子序列的规则
- 为什么一句话可以这么说也可以那么说?
- 如何建立快速有效的句子结构分析方法?
2.3 基本问题之三:语义问题
- 研究如何从一个语句中词的意义,以及这些词在该语句中句法结构的作用来推导出该句的意义。
- 这句话说了什么?
2.4 基本问题之四:语用学问题
- 研究在不同上下文中语句的应用,以及上下文对语句理解所产生的影响。从狭隘的语言学观点看,语用学出来的语言结构中有形式体现的那些语境。相反,语用学最宽泛的定义是研究语义学未能涵盖那些意义。
- 为什么要说这句话?
3 NLP的主要困难
3.1 困难之一:大量的歧义现象
- 自动化研究所取得的成就.
- 门把手弄坏了.
3.2 困难之二:结构歧义
3.3 机器翻译中映射单元的不对等性
- 词法表达不同、句法结构不一致、语义概念不对等。
3.4 归纳起来,NLP所面临的问题
- 普遍存在的不确定性:词法、句法、语义、语用和语音各个层面
- 未知语言现象的不可预测性:新的词汇、新的术语、新的语义和语法无处不在
- 始终面临的数据不充分性:有限的语言集合永远无法涵盖开放的语言现象
- 语音知识表达的复杂性:语义知识的模糊性和错综复杂的关联性难以用常规方法有效的描述,为语义计算带来了极大的困难。