python实现的基于hmm模型的词性标注系统-CSDN博客

本文链接：https://blog.csdn.net/say_c_box/article/details/78550659

python实现的基于hmm模型的词性标注系统

任务定义

实现一个词性标注系统，输入分好词的单词序列，输出一个词性标注后的结果序

使用的语料库为人民日报98年公开语料库，一共约18000行语料。在用户交互模式下，所有语料库均用作训练。在文件读写模式下，前3000行语句用来做测试，后面的语句用来做训练。

方法描述

隐马尔科夫模型理解

隐马尔科夫模型是结构最简单的动态贝叶斯网络。描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生随机序列的过程。隐藏的马尔科夫链随机生成的状态的序列称为状态序列，每个状态生成一个观测，称为观测序列。
隐马尔科夫做了两个基本的假设
- 齐次马尔科夫假设，即假设隐藏的马尔科夫链在任意时刻t的状态只依赖于前一时刻的状态，去其他观测状态无关。
- 观测独立性假设，即假设任意时刻的观测只依赖于该时刻的马尔科夫链的状态，与其他观测以及状态无关。
隐马尔科夫模型由初始状态概率向量π，状态转移概率矩阵A，以及观测概率矩阵B决定。
在词性标注问题中，初始状态概率为每个语句序列开头出现的词性的概率，状态转移概率矩阵由相邻两个单词的词性得到，观测序列为分词后的单词序列，状态序列为每个单词的词性，观测概率矩阵B也就是一个词性到单词的概率矩阵。
隐马尔科夫模型有三个基本问题：
- 概率计算问题，给出模型和观测序列，计算在模型 $\lambda$ 下观测序列O出现的概率
- 学习问题，估计模型 $\lambda=（A,B,\pi）$ 参数，使得该模型下观测序列 $P(0|\lambda)$ 最大，也就是用极大似然的方法估计参数
- 观测问题，已知模型 $\lambda$ 和观测序列O，求对给的观测序列条件概率P(I|O)最大的状态序列I，即给的观测序列，求最可能的状态序列。
在词性标注问题中，需要解决的是学习问题和观测问题。学习问题即转移矩阵的构建，观测问题即根据单词序列得到对应的词性标注序列

语料库的处理

在原始语料库中，存在多个连续空格以及空行等不便处理的字符。所以先用正则表达式对原始语料库进行处理。

由init.py文件实现，实现代码如下。

fin=codecs.open("语料.txt","r","utf-8")
strl=fin.read()
strl = re.sub("\[","",strl)
strl = re.sub("]nt","",strl)
strl = re.sub("]ns","",strl)
strl = re.sub("]nz","",strl)
strl = re.sub("]l","",strl)
strl = re.sub("]i","",strl)
strl = re.sub("\n", "@", strl)
strl = re.sub("\s+"," ", strl)
strl = re.sub("@","\n",strl)
strl = re.sub(" \n","\n",strl)
strl = re.sub(" ","@",strl)
strl = re.sub("\s+","\n",strl)
strl = re.sub("@"," ",strl)
s=strl.encode("utf-8")
fout=open("处理语料.txt","w")
fout.write(s)
fout.close()
fin.close()