（三）NLP HMM应用之中文分词

最新推荐文章于 2023-05-29 07:00:00 发布

淡定的炮仗

最新推荐文章于 2023-05-29 07:00:00 发布

阅读量685

点赞数 1

分类专栏： NLP 文章标签：算法自然语言处理

本文链接：https://blog.csdn.net/m0_43609475/article/details/119786024

版权

NLP 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

NLP HMM应用之中文分词

HMM的典型介绍就是这个模型是一个五元组：

StatusSet: 状态值集合（隐状态）
ObservedSet: 观察值集合（输出文字集合）
TransProbMatrix: 转移概率矩阵（隐状态）
EmitProbMatrix: 发射概率矩阵（隐状态表现为显状态的概率）
InitStatus: 初始状态概率（隐状态）
HMM解决的三种问题：
参数(StatusSet, TransProbMatrix, EmitRobMatrix, InitStatus)已知的情况下，求解观察值序列概率。
参数(ObservedSet, TransProbMatrix, EmitRobMatrix, InitStatus)已知的情况下，求解状态值序列S。
参数(ObservedSet)已知的情况下，求解(TransProbMatrix, EmitRobMatrix, InitStatus)。

一、使用HMM解决中文分词问题

问题属性：参数(ObservedSet, TransProbMatrix, EmitRobMatrix, InitStatus)已知的情况下，求解状态值序列S。

1、问题假设

对于中文分词问题，我们认为一个中文序列是由某种隐含状态序列生成的，隐含状态集合StatusSet：
为(B, M, E, S)： {B:begin, M:middle, E:end, S:single}。
每个状态分别代表的是该字在词语中的位置：
• B代表该字是词语中的起始字；
• M代表是词语中的中间字；
• E代表是词语中的结束字；
• S则代表是单字成词。
即每个状态可以产生所有汉子中的每一个汉字，但产生的概率不同。理解的话可以将状态B，M，E，S理解成四个面不同的筛子 ,每个筛子产生数字1到10的概率都不相同。其中数字1到10就相当于所有汉字。
而在这些汉字中，任意选一个到多个组成序列有很多很多，这些序列组成的集合叫做观察值集合ObservedSet：我们认为生活中的所有句子（包括标点符号）都是在观察值集合中取出来的。如：句子“小明硕士毕业于中国科学院计算所”就是观察值集合的一个元素
约束：决定了隐含状态之间的转换概率
StatusSet & ObservedSet：
B后面只可能接(M or E)，不可能接(B or S)。而M后面也只可能接(M or E)，不可能接(B, S)。

实际上根据我们的假设，一句话产生过程如下：
状态B产生了汉字小接着
状态E产生了汉字明接着
状态B产生了汉字硕接着
状态E产生了汉字士接着
状态B产生了汉字毕接着
状态M产生了汉字业接着
状态E产生了汉字于接着
状态B产生了汉字中接着
状态E产生了汉字国接着
状态B产生了汉字科接着
状态M产生了汉字学接着
状态E产生了汉字院接着
状态B产生了汉字计接着
状态E产生了汉字算接着
状态S产生了汉字所接着

状态序列：B E B E B M E B E B M E B E S
输出序列：小明硕士毕业于中国科学院计算所
注：个人认为也可以反过来假设，
输出序列：B E B E B M E B E B M E B E S
状态序列：小明硕士毕业于中国科学院计算所

2、问题解决

知道了我们产生句子的过程，我们也就能明白我们要做的事情，
那就是根据输出序列小明硕士毕业于中国科学院计算所
计算出 状态序列 B E B E B M E B E B M E B E S
要计算出状态序列首先我们需要知道：

1、InitStatus初始状态概率分布：

即根据处理后的语料，我们要统计出，句子的第一个字属于{B,E,M,S}这四种状态的概率。（注：-3.14e+100作为负无穷，也就是对应
的概率值是0。下同）
在这里插入图片描述

2、TransProbMatrix转移概率矩阵：

TransProbMatrix转移概率矩阵：是马尔科夫链很重要的一个知识点。
• 马尔科夫链最大的特点就是当前T=i时刻的状态Status(i)，只和T=i时刻之前的n个状态有关。
也就是: {Status(i-1), Status(i-2), Status(i-3), … Status(i - n)}
TransProbMatrix，其实就是一个4x4 (4就是状态值集合的大小)的二维矩阵。矩阵的横坐标和纵
坐标顺序是BEMS x BEMS。
即根据处理后的语料以及约束条件，我们要计算或者统计出隐含状态之间转移概率矩阵：
在这里插入图片描述

3、EmitProbMatrix发射概率矩阵：

发射概率矩阵也就是输出概率矩阵：即隐含状态输出某一个汉字的概率写到一起而构成的矩阵。
根据HMM模型的基本假设“观察值独立性假设”，观察值只取决于当前状态值，也就是:
在这里插入图片描述
其中P(Observed[i] | Status[j])这个值就是从EmitProbMatrix中获取。
发射概率矩阵的行坐标和列
坐标顺序是BEMS x 汉字个数。
根据处理后的语料，我们要统计出发射概率矩阵：

在这里插入图片描述
整理一下题目：已知输出序列为：小明硕士毕业于中国科学院计算，所根据HMM模型求出隐含状态序列。
解法：使用维特比算法（Viterbi algorithm）可计算出隐含状态链
首先利用初始状态概率分布和发射矩阵计算出产生小的最大概率对应的隐含状态，经计算为状态B
在这里插入图片描述
在状态B的基础上利用转移概率矩阵和发射矩阵计算出产生明的最大概率对应的隐含状态，经计算为状态E
转移概率矩阵B行的4个值与明列的4个值对应相乘，取最大值对应的状态。以此类推可得数所有隐含状态值。

二、jieba分词

jieba分词作为一个开源项目，在准确度和速度方面均不错，是我们平时常用的分词工具。
jieba分词是一个开源项目，地址为https://github.com/fxsjy/jieba
支持三种分词模式：

精确分词：试图将句子最精确的切开，适合文本分析
全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义
搜索引擎模式：在精确模式基础上，对长词进行再次切分，提高recall，适合于搜索引擎

淡定的炮仗

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
（三）NLP HMM应用之中文分词

NLP HMM应用之中文分词HMM的典型介绍就是这个模型是一个五元组：StatusSet: 状态值集合（隐状态）ObservedSet: 观察值集合（输出文字集合）TransProbMatrix: 转移概率矩阵（隐状态）EmitProbMatrix: 发射概率矩阵（隐状态表现为显状态的概率）InitStatus: 初始状态概率（隐状态）HMM解决的三种问题：参数(StatusSet, TransProbMatrix, EmitRobMatrix, InitStatus)已知的情况下，求解观
复制链接

扫一扫

专栏目录