在阅读学习《统计自然语言处理》一书的过程中了解到了冯志伟老师,感叹先生之风,山高水长,于是买了先生最新的著作、国内关于基于规则的自然语言处理方法的集大成之作——《自然语言计算机形式分析的理论与方法》一书拜读。此时我也在构思二维图案与三维场景自动分析的方法和论文,这个领域和NLP略有不同,规则方法久未有大的创新,统计方法仍然则局限在很窄的小点。希望借此机会能够从书中吸取规则和统计结合的思想,以促进灵感发生,做出一点微不足道的工作。
第一章 自然语言处理的学科定位
使用计算机技术来研究和处理自然语言始于20世纪40年代末。
1.1 从自然语言处理的过程来考察其学科定位
建立自然语言处理模型需要如下九个不同平面的知识:
领域 | 解释 | 用途 |
---|---|---|
声学和韵律学 | 描述语言的节奏、语调和声调规律 | 说明语音怎样形成音位 |
音位学 | 描述音位的结合规律 | 说明音位怎样形成语素 |
形态学 | 描述语素的结合规律 | 说明语素怎样形成单词 |
词汇学 | 描述词汇系统的规律 | 说明单词本身固有的语义特性和语法特性 |
句法学 | 描述单词(或词组)之间的结构规则 | 说明单词(或词组)怎样形成句子 |
语义学 | 描述句子中各个成分之间的语义关系(情景无关) | 说明怎样从构成句子的各个成分中推导出整个句子的语义 |
话语分析 | 描述句子句子之间的结构规律 | 说明怎样由句子形成话语或对话 |
语用学 | 描述与情境有关的情景语义 | 说明怎样推导出句子具有的与与周围话语有关的各种含义 |
外界世界的常识性知识 | 描述关于语言使用者和语言使用环境的一般性常识,如语言使用者的信念和目的 | 说明怎样推导出这样的信念和目的内在结构 |
自然语言处理的过程
自然语言处理还涉及计算机科学、数学、心理学、哲学、统计学、电子工程、生物学等领域的知识,是一个多边缘交叉的学科。
每一个从事自然语言处理的人,都应该尽量使自己成为文理兼通、博学多识的人
1.2 从自然语言的处理范围来考察其学科定位
四大方向:
- 语言学
- 数据处理
- 人工智能和认知科学
- 语言工程
13大内容:
- 口语输入
- 语音识别
- 信号表示
- 鲁棒的语音识别
- 隐马尔科夫模型方法
- 语言模型
- 说话人识别
- 口语理解
- 书面语输入
- 文献格式识别
- 光学字符