语音识别中基于规则的语言模型
一 语言模型的选择
语音识别一般分为两个阶段:
1)语音识别阶段:这个阶段利用语音的声学模型,把自然的声音信号转换为机器可以处理的数字表达的音节形式。
2)语音理解阶段:这个阶段把上阶段的结果即音节转换成汉字,这一阶段需使用语言模型的知识进行理解。
而在语音识别中最重要的一部就是建立语言模型,提高语音识别的准确率。
语言模型现在常用的一般可以分为两种:一种是基于大规模语料库的统计语言模型。这种方法的特点是适合处理大规模真实语料 , 数据准备的一致性好,鲁棒性强 , 但由于其实现受系统的空间和时间所限 , 因而只能反映语言的紧邻约束关系,无法处理语言的长距离递 归现象 。
一种是基于规则的语言模型。这种方法是在对汉语词汇系统按语法语义进行分类 的基础上 , 通过确定 自然语言的词法 、 句法及语义关系 , 试图达到同音词的大范围的基本唯一识别 。 其特点是适于处理封闭语料 , 能够反映语言的长距离约束关系和递归现象 , 但这种方法的鲁棒性差 , 不适合处理开放性语料 , 知识表达的一致性不好 。
二 词汇分类体系的建立
词类的划分是 自然语言理解的基础 , 分类是人类认识事物 的一种结果 , 也是人类认识
事物的一 种手段 。 只有对汉语词汇进行系统的语法语义分类 , 才能对整个词汇系统有完
整 的认识 , 进行合理的属性标注 , 并在此基础上 , 建立完整系统的规则体系 , 这也会给实际工作带来极大的方便。
按语法进行分类 , 划分 比较简单 , 它和句法关系密切 , 只关心基本词性 , 基本上不关
心被表达知识的意义 。
) 按语法进行划分 , 把词划分成十一大类 : 名词 、 动词 、 形容词 、 数词 、 量词 、 代词 、副词 、 介词 、 连词 、 助词和语气词 。
2
一 语言模型的选择
语音识别一般分为两个阶段:
1)语音识别阶段:这个阶段利用语音的声学模型,把自然的声音信号转换为机器可以处理的数字表达的音节形式。
2)语音理解阶段:这个阶段把上阶段的结果即音节转换成汉字,这一阶段需使用语言模型的知识进行理解。
而在语音识别中最重要的一部就是建立语言模型,提高语音识别的准确率。
语言模型现在常用的一般可以分为两种:一种是基于大规模语料库的统计语言模型。这种方法的特点是适合处理大规模真实语料 , 数据准备的一致性好,鲁棒性强 , 但由于其实现受系统的空间和时间所限 , 因而只能反映语言的紧邻约束关系,无法处理语言的长距离递 归现象 。
一种是基于规则的语言模型。这种方法是在对汉语词汇系统按语法语义进行分类 的基础上 , 通过确定 自然语言的词法 、 句法及语义关系 , 试图达到同音词的大范围的基本唯一识别 。 其特点是适于处理封闭语料 , 能够反映语言的长距离约束关系和递归现象 , 但这种方法的鲁棒性差 , 不适合处理开放性语料 , 知识表达的一致性不好 。
二 词汇分类体系的建立
词类的划分是 自然语言理解的基础 , 分类是人类认识事物 的一种结果 , 也是人类认识
事物的一 种手段 。 只有对汉语词汇进行系统的语法语义分类 , 才能对整个词汇系统有完
整 的认识 , 进行合理的属性标注 , 并在此基础上 , 建立完整系统的规则体系 , 这也会给实际工作带来极大的方便。
按语法进行分类 , 划分 比较简单 , 它和句法关系密切 , 只关心基本词性 , 基本上不关
心被表达知识的意义 。
) 按语法进行划分 , 把词划分成十一大类 : 名词 、 动词 、 形容词 、 数词 、 量词 、 代词 、副词 、 介词 、 连词 、 助词和语气词 。
2