基于Python进行汉语多音字注音研究

最新推荐文章于 2025-06-08 02:52:26 发布

神仙别闹

最新推荐文章于 2025-06-08 02:52:26 发布

阅读量769

点赞数 14

分类专栏：课程设计文章标签： python 人工智能开发语言

本文链接：https://blog.csdn.net/s1t16/article/details/145448320

版权

课程设计专栏收录该内容

384 篇文章

订阅专栏

汉语多音字注音研究

准确率

计算准确率的方法：

某个数据集上的准确率 = 该数据集中所有标注正确的多音字数 / 数据集中含有的多音字总数

4.10 更新

之前的准确率计算有些问题，将 <unk> 和 <pad> 也算作多音字了，改正之后准确率变为 85% - 88%。

我们试着增加了 LSTM 的层数，发现在当前情况下，随着层数增加，准确率有所降低。

调研阶段

汉语多音字注音研究

在开始阶段，通过查阅资料，以下是对这个问题的一些认识。

多音字个数是有限的，要根据其在不同情况下的读音来建立规则，以后再遇到新词时就去匹配这些规则，无法匹配时就更新规则。应该是通过机器学习实现的。
对这个问题的研究经历了几个过程

- 早期是对多音字统计不同读音下的使用频率，以频率最高的读音来标注新词。准确率低
- 统计法。通过构建词库，建立规则来进行注音，是以词语为单位，准确率有所提升，但仍无法解决多音字前后的字一样但读音不同的情况。
- 规则法。语言学家建立规则，再输入到计算机，但无法指定一个很完备的规则集

论文中的解决方案
《中文文语转换系统中多音字问题研究》
[1]李清. 中文文—语转换系统中多音字问题研究[D].河北大学,2010.

- 对于低频多音字，即某个出现频率很低的多音字，它在绝大多数情况下都读一个音，只在少部分情况下读另一个音时，通过对每个字建立一个读音表，将相应词条和读音输入，注音时进行匹配即可。如果遇到没有收入的词语，就按高频音来注音。
- 对于中高频多音字又有三种情况

1. 1. 某个音只出现在特定的词语或者语境中，则通过分词之后进行匹配。
  2. 某个音覆盖率百分之99以上，采用和低频多音字一样的解决方法。
  3. 某个字低频读音和高频读音的频率差不多一样时，需要人工建立规则

《一种新的基于规则的多音字自动注音方法》[1]郑敏. 一种新的基于规则的多音字自动注音方法[A]. 中国中文信息学会.第二届全国学生计算语言学研讨会论文集[C].中国中文信息学会:中国中文信息学会,2004:6.
通过对多音字进行特征提取，总结出八条特征，对一些高频常见的多音字根据其不同音的使用场景利用总结出的特征建立规则。
在统计时首先对句子进行分词，得到含有多音字的词语，根据该字所在的词语以及上下文的特征去检索规则，得到读音。
《统计与规则相结合的多音字自动注音方法研究与实现》利用决策树对多音字中高频音和低频音相差不多的情况进行判别。
《汉语字音转换中的多层面多音字读音消歧》采用决策树和人工建立规则相结合的方法。
《基于规则及SVM权值训练的汉语多音字自动消歧研究》胡国平. 基于规则及SVM权值训练的汉语多音字自动消歧研究[A]. Northeastern University、Tsinghua University、Chinese Information Processing Society of China、Chinese Languages Computer Society, USA.Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C].Northeastern University、Tsinghua University、Chinese Information Processing Society of China、Chinese Languages Computer Society, USA:中国中文信息学会,2003:7.
《解决多音字字-音转换的一种统计学习方法》1]张子荣,初敏.解决多音字字-音转换的一种统计学习方法[J].中文信息学报,2002(03):39-45.
基于扩展的随机复杂度的随机决策列表方法
《基于最大熵模型的多音字消歧》[1]刘方舟. 基于最大熵模型的多音字消歧[A]. 中文信息学会语音信息专业委员会、中国声学学会语言、听觉和音乐声学分会、中国语言学会语音学分会.第九届全国人机语音通讯学术会议论文集[C].中文信息学会语音信息专业委员会、中国声学学会语言、听觉和音乐声学分会、中国语言学会语音学分会:清华信息科学与技术国家实验室（筹）,2007:6.
使用最大熵增模型和决策树的方法。
**《A Comparative Study of Diverse Knowledge Sources and Smoothing
Techniques via Maximum Entropy for Polyphone Disambiguation in
Mandarin TTS Systems 》**
采用多种算法比较。最大熵增模型
《A Method of Part of Speech Based on the Algorithm of C4.5 for Polyphone》使用C4.5算法，一种产生决策树的算法
**《A Bi-directional LSTM Approach for Polyphone Disambiguation in Mandarin
Chinese》**
采用LSTM（长短期记忆），一种神经网络