中文分词的python实现-基于HMM算法

最新推荐文章于 2024-08-13 08:40:40 发布

orlandowww

最新推荐文章于 2024-08-13 08:40:40 发布

阅读量1.3w

点赞数 4

分类专栏：自然语言处理NLP 文章标签： python 分词 HMM 隐马尔科夫

本文链接：https://blog.csdn.net/orlandowww/article/details/52706135

版权

本文介绍了使用HMM模型进行中文分词的方法，详细阐述了HMM的五元组组成，状态转移和发射概率矩阵，以及Viterbi算法。通过Python代码实现了模型训练和分词效果测试。

摘要由CSDN通过智能技术生成

隐马尔科夫模型（HMM）

模型介绍

HMM模型是由一个“五元组”组成:

StatusSet: 状态值集合
ObservedSet: 观察值集合
TransProbMatrix: 转移概率矩阵
EmitProbMatrix: 发射概率矩阵
InitStatus: 初始状态分布

将HMM应用在分词上，要解决的问题是：参数(ObservedSet, TransProbMatrix, EmitRobMatrix, InitStatus)已知的情况下，求解状态值序列。解决这个问题的最有名的方法是viterbi算法。

参数介绍

StatusSet，状态值集合为(B, M, E, S): {B:begin, M:middle, E:end, S:single}。分别代表每个状态代表的是该字在词语中的位置，B代表该字是词语中的起始字，M代表是词语中的中间字，E代表是词语中的结束字，S则代表是单字成词。
ObservedSet，观察值集合就是所有汉字，甚至包括标点符号所组成的集合。
TransProbMatrix，状态转移概率矩阵的含义就是从状态X转移到状态Y的概率，是一个4×4的矩阵，即{B,E,M,S}×{B,E,M,S}。
EmitProbMatrix，发射概率矩阵的每个元素都是一个条件概率，代表P(Observed[i]|Status[j])
InitStatus，初始状态概率分布表示句子的第一个字属于{B,E,M,S}这四种状态的概率。

Viterbi算法

Viterbi算法的核心思想就是动态规划实现最短路径，按照Michael Collins教的，核心思想是：
Define a dynamic programming table π(k,u,v),
π(k,u,v) = maximum probability of a tag sequence ending in tags u,v at position k.
For any k ∈ {1…n}: π(k,u,v) = max ( π(k-1,w,u) × q(v|w,u) × e(xk|v) )
完整的Viterbi算法网上有很多资料可以查看，本文主要关注代码的实现。

实验

代码1：模型训练

生成三个文件：
- prob_start.py 为初始状态概率
- prob_trans.py 为状态转移概率
- prob_emit.py 为发射概率

# -*- coding: utf-8 -*-

# 二元隐马尔科夫模型（Bigram HMMs）
# 'trainCorpus.txt_utf8'为人民日报已经人工分词的预料，29万多条句子

import sys

#state_M = 4
#word_N = 0
A_dic = {}
B_dic = {}
Count_dic = {}
Pi_dic = {}
word_set = set()
state_list = ['B','M','E','S']
line_num = -1

INPUT_DATA = "trainCorpus.txt_utf8"
PROB_START = "trainHMM\prob_start.py"   #初始状态概率
PROB_EMIT = "trainHMM\prob_emit.py"     #发射概率
PROB_TRANS = "trainHMM\prob_trans.py"   #转移概率