python自定义拼音输入法_Python与HMM实现简单拼音输入法

最新推荐文章于 2022-09-22 09:00:33 发布

Joey Jiao

最新推荐文章于 2022-09-22 09:00:33 发布

阅读量1.4k

点赞数

文章标签： python自定义拼音输入法

本文链接：https://blog.csdn.net/weixin_29144259/article/details/112843685

版权

本文介绍了基于隐马尔科夫模型（HMM）的Python拼音输入法实现。通过解决拼音串到汉字的映射问题，利用维比特算法动态规划寻找最优路径，并通过统计词频优化模型。虽然部分诗句和易混淆拼音的正确率较低，但随着平滑参数的选择，整体正确率有所提升。代码和数据可供下载，便于进一步研究。

摘要由CSDN通过智能技术生成

一、基本思路和实现过程

1. 问题描述

给出一个拼音串，例如：qing hua da xue

如何找到对应的汉字呢？请注意，这里的拼音串不同的拼音之间是有空格隔开的，并且不包含标点符号。

2. 基于隐马尔科夫(HMM)的拼音输入法

继续考虑上面的问题。其中每个拼音都可能对应多个汉字，整体上构成一个复杂的网络，对应多种汉字组合：

我们可以把这个问题看成一个路径优化问题：我们认为汉语中每个字的出现不是偶然的，而是与上一个字存在某种联系，从而从上一个字到这个字可能存在某种概率，而且不同组合概率不同。显然这与我们的生活经验相符，比如“清华”出现的概率应该比“清话”和“清花”大。如果把这个概率看成一种路径长度，那么我们就是要找到最长的路径(只不过这里的路径“长度”是不同路径相乘得到——那么也可以将概率的对数视为真正的路径长度，但事实上没必要这么实现)。这恰好对应隐马尔可夫模型(Hidden Markov Model，HMM)。百科上的解释是它是一个含有隐含未知参数的马尔可夫过程。马尔可夫过程简单地说就是一个过程的一个状态由它的上一状态决定。之所以是隐马尔可夫模型，主要是这个状态序列是“隐藏”的。比如我们随便输入的一个句子基本上是之前没有输入过的。

考虑这样一个网络：

我们将上面的解析抽象为数学问题，目标也就是：

其中：

为了解决$P(w_i|w_{i-1})$ 可能为0的问题，采用平滑的方法：

实验中，通过选取多组参数确定最佳的$lambda$ 的取值。

此外，还有一个问题是，$w_{i-1}$ 也有可能为0. 在我的统计结果中，7272个汉字中以下汉字的出现次数为0：锿砹揞茇鞴庳笾窆瘭醭骖楱镩榱鹾骣冁躔蒇傺膪舡怛赕忉帱铞髑芏憝砘裰缍苊鲕镄篚唪鳆砩艴钆戤槔袼虼塥觏遘诖涫匦猓蜾馘胲糇鹱冱擐萑蟪咴阍劐锪哜丌墼裥鞯戋洚鹪僬纟鲒骱赆獍刭弪僦鬏醵锩胩佧蒈闶裉眍芤蒉悃漤耢缧缡裣癃硵镥稆锊呒鞔硭猸镅蠛蛑毪镎肭蝻耪旆堋仳擗螵缏氕肷锖鞒劁愀吣赇肜脎鳋锼瞍嗾谇唼髟胂矧铈铴耥慝掭龆酴腽芄阢饩莶蟓枵绁砉痃泶獯曛厣阽蛘轺铘酏狺铕窬箢眢拶驵唣趑腙鲰觜阼齄瘵嫜磔膣瘛荮瘃窀

显然这些都是非常用字，我基本上一个都不认识。只能直接将概率设为0.

3. 维比特算法

每个拼音对应多个汉字，比如：a 阿啊呵锕吖腌嗄

从而多个拼音对应多层汉字。需要用动态规划的算法寻找最优路径：对于第一层，不需要求最大路径概率，只需要求该层各个汉字的概率。

对于后面所有层，递推关系式：

其中，$P(W_{i,j})$ 为点$W_{i,j}$ 的最佳路径值， $P(W_{i-1, k}|W_{i,j})$ 为$W_{i-1,j}$ 到$W_{i,k}$ 的发射概率。

4. 统计词频

我们需要知道每一个字出现的次数，每一个词和其他的字同时出现的次数。汉字的个数太多，共七千多个。如果两两组合构建矩阵，大小为7000*7000。当然，这个矩阵是相当稀疏的。可以考虑用字典+字典的数据结构。

首先，已经构造拼音与汉字对应表，由此可以构造pinyin2hanzi词典。

其次，对所有汉字给定编码，构造词典。

再次，对所有汉字统计出现次数。

最后，对汉字矩阵统计出现次数。

方法是遍历语料库。每一行的结果需要判断汉字串(可能被各种标点符号切割)。对每个汉字串，遍历即可。

二、输入法效果展示

1. 正确率较低的样例

从上图可见大部分的句子正确率较高，但是仍有相当一部分句子正确率很低。下表为正确率在0.2以下的测试样例及输出结果(已经剔除只有一个字的“句子”)。从表可见正确率较低的句子大部分是诗句，可以通过增强这些诗句的权重来改进。另外某些句子的拼音本身就易造成歧义，比如“xiang xiang ji”的输出结果为“想象级”，而正确结果为“香香鸡”。

输入结果正确结果正确率经嗽和大厦也显示认领提惊搜狐大厦夜现食人灵体0.181818

他是最阏氏广她是罪恶之光0.166667

迹象风不方调簦合收昭山和既相逢不妨挑灯呵手照山河0.166667

府网站厮杀场斧王战死沙场0.166667

认为深麽舀水较人为什么要睡觉0.142857

策影翻沉着孩说侧影反衬著海水0.142857

和方殷小切需行何妨吟啸且徐行0.142857

务事人肥市食宿物是人非事事休0.142857

主播票等都秭归珠箔飘灯独自归0.142857

一芟夷山梁静静一闪一闪亮晶晶0.142857

立名侨侨华国天便黎明悄悄划过天边0.125

烃含四种生情也佛听寒寺钟声请野佛0.125