java 多音词语转拼音_一种多音字汉字转拼音全拼的方法与流程

d95ed4ccdebfb2da2c9fea5ec0b42d0c.gif

本发明涉及信息技术领域,尤其涉及一种汉字与拼音转换,精确识别多音字的多音字汉字转拼音全拼的方法。

背景技术:

随着中国综合国力的逐渐增强,汉字在国际上的应用场景越来越多,汉字的学习热情空前高涨。在汉字学习的过程中,将汉字分解为拼音是一个基础过程,当前很多软件支持将汉字转换为拼音。但现有软件使用的汉字转拼音,要么不支持多音字,要么不能精确识别多音字,只能在模糊搜索的场景使用,不能用于精确拼音匹配用途。

因此,有必要提出一种改进,以克服现有技术缺陷。

技术实现要素:

本发明的目的是解决现有技术中的问题,提供一种可以精确地将多音汉字转换为拼音,转换准确率高的多音字汉字转拼音全拼的方法。

本发明的技术方案是:一种多音字汉字转拼音全拼的方法,包括以下步骤:S1:将含声调的汉字拼音字典中的汉字及拼音转换为计算机可读的字典格式,建立汉字拼音库;S2:将所述汉字拼音库内的多音字及拼音提取汇总,制作多音字拼音库;所述多音字拼音库内包括多音字、多音字拼音、多音字词组及多音字词组拼音;S3:遍历待转换的汉字词组或句子,判断字符是否为汉字,不是则原样返回;是则从所述多音字拼音库内查询该汉字是否为多音字,找到匹配的多音字词组则返回对应多音字词组拼音,没找到匹配的多音字词组则返回所述汉字拼音库内对应汉字的拼音。

作为一种优选的技术方案,步骤S2中建立多音字拼音库时,针对带数字的多音字词组,使用通配符表示数字。

作为一种优选的技术方案,所述汉字拼音库用C#语言定义为Dictionary类型。

作为一种优选的技术方案,步骤S1内所述计算机可读的字典格式中,键名称为汉字,值为拼音。

作为一种优选的技术方案,所述汉字拼音库内还包括汉字的声调信息,所述声调信息通过声调字符串表示,所述声调字符串设置于汉字拼音后。

作为一种优选的技术方案,所述声调字符串为数字或声调符号。

作为一种进一步优选的技术方案,所述声调字符串为数字时,用数字1-4表示一到四声声调,用数字5表示轻声。

作为一种优选的技术方案,所述多音字拼音库也为计算机可读的格式,其中,键名称为多音字、值为多音字词组列表,多音字词组实体有词组和拼音两个属性。

作为一种进一步优选的技术方案,所述多音字拼音库用C#语言可定义为Dictionary>类型,多音字词组实体WordInfo有Words和PinYin两个字符串类型的属性。

作为一种优选的技术方案,本发明的一种多音字汉字转拼音全拼的方法,还包括步骤S4:将步骤S3返回的全拼拼音转换为拼音首字母。

本发明的一种多音字汉字转拼音全拼的方法,先将汉字拼音字典转换成计算机可读的格式,将其中的多音字列出来,把多音字词组整理出来做成多音字拼音字典;在实际汉字转拼音时,遍历待转换的汉字句子,如果当前汉字是对多音字,则取前后相邻的字作为词组在多音字拼音字典中匹配,匹配到则使用多音字拼音字典中的拼音,匹配不到则使用默认拼音;非多音字直接从汉字拼音字典中取拼音。汉字拼音字典内的多音字词组越全,本发明一种多音字汉字转拼音全拼的方法转换的准确率越高。本发明的一种多音字汉字转拼音全拼的方法,能够精确识别多音字汉字的拼音,为拼音搜索、语音合成等用途提供精确的匹配结果。利用本发明的一种多音字汉字转拼音全拼的方法可以精确地将多音汉字转换为拼音,转换准确率高。

附图说明

图1为本发明本发明一种多音字汉字转拼音全拼的方法具体实施例流程图。

具体实施方式

为了使本发明实现的技术手段、技术特征、发明目的与技术效果易于明白了解,下面结合具体图示,进一步阐述本发明。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。

应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述XXX,但这些XXX不应限于这些术语。这些术语仅用来将XXX彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一XXX也可以被称为第二XXX,类似地,第二XXX也可以被称为第一XXX。

取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

为了精确识别汉字词组或句子中的多音字将其转换为拼音全拼,如图1所示,本发明提供了一种多音字汉字转拼音全拼的方法,包括以下步骤:

准备好汉字拼音字典,由于汉字拼音字典内多音字词组越全,通过本发明一种多音字汉字转拼音全拼的方法转换后的拼音准确率越高,因此该汉字拼音字典内多音字词组越多越全越好。作为优选方案,该汉字拼音字典内的拼音信息最好还包括声调。在将待转换的多音字汉字准确转换为拼音全拼前,需要手动整理多音字拼音数据库:

S1:将含声调的汉字拼音字典中的汉字及拼音转换为计算机可读的字典格式,建立汉字拼音库。作为优选方案,该计算机可读的字典格式中,键名称为汉字,值为拼音。

为了在后续转换过程中能一并体现出声调,在上述汉字拼音库内一并录入声调信息,在汉字拼音库内声调信息通过声调字符串表示,声调字符串设置于汉字拼音之后。在实际应用过程中,声调字符串可以为数字或声调符号。为了简化录入信息,提高上述汉字拼音库的建立效率,上述声调字符串可以为数字,用数字1-4表示一到四声声调,用数字5表示轻声。

为了提高后续查询效率,上述汉字拼音库优选地用C#语言定义为Dictionary类型。

建立汉字拼音库之后,执行步骤S2:将所述汉字拼音库内的多音字及拼音提取汇总,制作多音字拼音库;所述多音字拼音库内包括多音字、多音字拼音、多音字词组及多音字词组拼音。

在制作多音字拼音库时,针对带数字的多音字词组,若将所有数字词组添加到多音字拼音库太费力,此时,作为优选方案,可以使用通配符表示数字。例如“一行”、“十行”可以用词组“N行”表示。

作为优选,上述多音字拼音库也为计算机可读的格式,其中,键名称为多音字、值为多音字词组列表,多音字词组实体有词组和拼音两个属性。上述多音字拼音库用C#语言可定义为Dictionary>类型,多音字词组实体WordInfo有Words和PinYin两个字符串类型的属性。

多音字拼音库制作完成后,可以进行汉字转拼音步骤S3:遍历待转换的汉字词组或句子,判断字符是否为汉字,不是则原样返回;是则从所述多音字拼音库内查询该汉字是否为多音字,找到匹配的多音字词组则返回对应多音字词组拼音,没找到匹配的多音字词组则返回所述汉字拼音库内对应汉字的拼音。此时,可以根据实际需要,选择输出的拼音信息是否包括声调,声调可以为数字声调或中文符号声调。用上述方法将多音字汉字转换为拼音全拼实现精确识别,例如“会计步行去银行了”转换后为“kuai4 ji4 bu4 xing2 qu4 yin2 hang2 le5”、“唯有泪千行”转换后为“wei2 you3 lei4 qian1 hang2”。

在实际应用中,可以根据实际应用场合的需要增加步骤S4:将步骤S3返回的全拼拼音转换为拼音首字母。

本发明的一种多音字汉字转拼音全拼的方法,先将汉字拼音字典转换成计算机可读的格式,将其中的多音字列出来,把多音字词组整理出来做成多音字拼音字典;在实际汉字转拼音时,遍历待转换的汉字句子,如果当前汉字是对多音字,则取前后相邻的字作为词组在多音字拼音字典中匹配,匹配到则使用多音字拼音字典中的拼音,匹配不到则使用默认拼音;非多音字直接从汉字拼音字典中取拼音。汉字拼音字典内的多音字词组越全,本发明一种多音字汉字转拼音全拼的方法转换的准确率越高。本发明的一种多音字汉字转拼音全拼的方法,能够精确识别多音字汉字的拼音,为拼音搜索、语音合成等用途提供精确的匹配结果。利用本发明的一种多音字汉字转拼音全拼的方法可以精确地将多音汉字转换为拼音,转换准确率高。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务端,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

综上所述仅为本发明较佳的实施例,并非用来限定本发明的实施范围。即凡依本发明申请专利范围的内容所作的等效变化及修饰,皆应属于本发明的技术范畴。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值