java 中文分词转拼音_如何实现拼音与汉字的互相转换

weixin_39811386

于 2021-02-24 15:03:38 发布

阅读量252

点赞数

文章标签： java 中文分词转拼音

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39811386/article/details/114566840

版权

基于词库的汉字转拼音

词库中既要包含每个字的拼音，也要包含常用单词/短语的读音。有些字是多音字，所以至少要保存其最常用的读音，不常用的读音多出现在单词/短语里。

好了，词库准备好了，现在手头有一句话要转换要转换为拼音，这句话是：

你好世界杯

我们的词库是这样子的：

你：nǐ

好：hǎo,hào

世：shì

界：jiè

杯：bēi

世界：shì,jiè

你好：nǐ,hǎo

苦尽甘来：kǔ,jìn,gān,lái

词库中最长的词苦尽甘来包含4个字。所以你好世界杯从4个字开始匹配：

判断你好世界是否在词库中，不在；

判断你好世是否在词库中，不在；

判断你好是否在词库中，在，得到nǐ,hǎo；

判断世界杯是否在词库中，不在；

判断世界是否在词库中，在，得到shì,jiè；

判断杯是否在词库中，在，得到bēi；

于是你好世界杯被转换为nǐ,hǎo,shì,jiè,bēi。

基于词库和分词工具的汉字转拼音

纯粹的基于词库的方法在实际的使用中会遇到问题，例如提出了解决方案这句话中了解会被当作一个单词，所以会得到错误的结果：

tí,chū,liǎo,jiě,jué,fāng,àn

更好的方法是先进行分词得到：

提出

了

解决

方案

然后基于词库对每个结果分别处理。

基于HMM的拼音转汉字

这里的拼音一般不带声调。

将汉字作为隐藏状态，拼音作为观测值，使用viterbi算法可以将多个拼音转换成合理的汉字。例如给出ti,chu,le,jie,jue,fang,an，viterbi算法会认为提出了解决方案是最合理的状态序列。

HMM需要三个分布，分别是：

初始时各个状态的概率分布

各个状态互相转换的概率分布

状态到观测值的概率分布

这个3个分布就是三个矩阵，根据一些文本库统计出来即可。

viterbi算法基于动态规划，维基百科 - Viterbi algorithm给出了很好的解释和示例。

基于词库的拼音转汉字

原则：

词的权重大于字的权重；

转换中匹配的词越多，权重越小。

词库的格式是：

拼音:单词:权重

例如：

ni:你:0.15

ni:泥:0.12

a:啊:0.18

hao:好:0.14

nihao:你好:0.6

假如输入是ni,hao,a，我们计算一下各种组合的权重：

组合

权重

你,好,啊

0.15*0.14*0.18 = 0.00378

泥,好,啊

0.12*0.14*0.18 = 0.003024

你好,啊

0.6*0.18 = 0.108

可以看出，你好,啊是最好的结果。

实际实现中需要用到动态规划，和求有向无环图中两点之间最短距离类似。

代码实现

weixin_39811386

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java 中文分词转拼音_如何实现拼音与汉字的互相转换

基于词库的汉字转拼音词库中既要包含每个字的拼音，也要包含常用单词/短语的读音。有些字是多音字，所以至少要保存其最常用的读音，不常用的读音多出现在单词/短语里。好了，词库准备好了，现在手头有一句话要转换要转换为拼音，这句话是：你好世界杯我们的词库是这样子的：你：nǐ好：hǎo,hào世：shì界：jiè杯：bēi世界：shì,jiè你好：nǐ,hǎo苦尽甘来：kǔ,jìn,gān,lái词库中最长的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。