1. 概述
- 强调对语言知识的理性整理(知识工程)
- 受计算语言学理论指导
- 基于规则的知识表示和推导(符号计算)
- 语言处理规则(数据)与程序分离,程序体现为规则语言的解释器!
2. 词法分析
形态还原(针对英语、德语、法语等)
- 把句子中的词还原成它们的基本词形。
词性标注
- 为句子中的词标上预定义类别集合(标注集)中的类。
命名实体识别
- 人名
- 地名
- 机构名
分词(针对汉语、日语等)
- 识别出句子中的词。
2.1形态还原(英语)
把句子中的词还原成原形,作为词的其它信息(词典、个性规则)的索引。
构词特点
- 屈折变化:词尾和词形变化,词性不变。如:
study, studied,studied,studying
speak,spoke,spoken,speaking
- 派生变化:加前缀和后缀,词性发生变化。如:
friend,friendly,friendship,...
- 复合变化:多个单词以某种方式组合成一个词。
还原规则
-
通用规则:变化有规律
-
个性规则:变化无规律
2.1.1 形态还原规则举例
英语“规则动词”还原
-
*s -> * (