语音朗读中多音字问题

  语音朗读技术日益普及但多音字问题始终没有得到解决,虽然采用词组可以减少一些多音字识别的困难,但不能从根本上解决问题。在朗读中出现将字音读错实在使人不爽。所以大家都来集思广益,想出切实可行的解决方法,让语音技术更好的为大家服务。这里提出的解决方案,有的是不容易实现的,只能供有关者参考。

利用现有条件实现无错误语音朗读的方法
  计算机能识别一个汉字是不是个多音字,但是不能判断语音软件对一个汉字的读音在文章中的特定位置是不是正确,这只能靠人来识别正误。发现错误读音如何处理?可以用读音正确的其它字替代读音错误的字,这样修改后的文章可以称为此文章对应于XXX语音库的朗读版,这样做牺牲了文章的可读性。所以比较好的做法是,程序在执行语音朗读时,让软件显示正确的文章,但同步读出的却是朗读版,这样就比较完美了。

注释读音
  以往文章中有时对多音字采用在自后注释其读音,例如 银行(hang2),其中2表示读音为 2声,这样确实可以标注准确的读音,但是占地方不少,会使文章显得臃肿,并且大家在写文章时也没有标注多音字的习惯,尤其是常用字。一般文章也不需要为多音字标注其读音,只是需要朗读的文章才有这个必要,所以朗读软件先将普通文件转化加工为朗读文件再朗读,如何标示多音字的读音是个关键问题,仍然采用字后标识但方法要改进,根据统计发现一个汉字多音字读音不超过四个,现在需要汉字的多音字表。

多音字表
  首先要建立多音字表,现在有许多多音字表,但还没有建立标准,为每一个字形的汉字,以表格方式标示其一种或多种读音,如果一个汉字有多种读音,要统计各种读音出现的频率,让频率高的出现在表的前面。此表要让计算机或人查找,所以表的设计要兼顾两者,例如要有词例。
  有了多音字表,对任何一个汉字可以标注其唯一的读音,标注方式,汉字后面跟两个字节的标注码,第一码为#是个记号,第二码是此汉字在多音字表中的排列位置,是数字 1至 4其中之一个,例如“行”字的多音字表
                  行 ①xíng 举行 发行 ②háng 行市,行伍 ③hàng 树行子 ④héng 道行

  标示读音的例子:银行#2   发行#1   树行#3子
  现在的问题需要语音系统有识别标注的能力,也就是读取标注码后到多音字表中找出对应的读音并读出来。这需要语音方面的软件开发商协助才可能完成。
  这些都办到了,就可以在注释后让软件读出正确的声音。
  问题是,每个语音朗读者的表现各不一样,所用的词量也不一致,对一样的段落可能处理方式不一样,所以标准化尤为重要,不然无法使用统一的解决办法。

具体应用
  要想达到语音软件理想的服务,需要对文章进行预编辑;软件运行后,发现多音字,在此处读音若发现错误读音,显示此汉字全部的读音,从中选择正确的读音并做好标注,标注是在字形的点阵里,然后进行下一个,直至文章结束。
  经过标注的文章就可以朗读了,软件解释标注选择正确读音,完成文章的显示和朗读。

无可奈何的处理方法
  就以现在的条件要想实现完美的朗读也不是不可以但是相当麻烦,还要有相应的软件。
  将所要朗读的文本再复制一份将作为朗读版,而原文作为阅读版,两者字数上、格式上完全一致,选定一个语音朗读者A,对常用多音字下手,对含多音字段落看A读的是否有误,如果发现读音错误将正确读音的字替换原字而修改朗读版,朗读版只是读音正确不能用于阅读。
  全部改好后,可以让软件朗读了,软件的作用是显示阅读版而读朗读版,从而实现了正确朗读和显示。

 

转载于:https://www.cnblogs.com/sjdbky/archive/2011/10/29/2228331.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值