隐马尔可夫模型

隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程。

隐藏的马尔可夫链随机生成的状态的序列,称为状态序列(state sequence);每个状态生成一个观测,而由此产生的观测的随机序列,称为观测序列(observation sequence)。序列的每一个位置又可以看作是一个时刻。

HMM是马尔可夫链的一个扩展:任一时刻t的状态st是不可见的。所以观察者没法通过观察到一个状态序列s1、s2、s3,···,sT来推测转移概率等参数。但是,HMM在每个时刻t会输出一个符号ot,而且ot跟st相关且仅跟st相关。这个被称为独立输出假设。
比如天气预测,如果我们知道“晴天,多云,雨天”之间的转换概率,那么如果今天是晴天,我们就可以推断出明天是各种天气的概率,接着后天的天气可以由明天的进行计算。这类问题可以用 Markov 模型来描述。
进一步,如果我们并不知道今天的天气属于什么状况,我们只知道今明后三天的水藻的干燥湿润状态,因为水藻的状态和天气有关,我们想要通过水藻来推测这三天的真正的天气会是什么,这个时候就用 Hidden Markov 模型来描述。
隐马尔可夫模型的结构如下:其中隐含的状态s1、s2、s3,···是一个典型的马尔可夫链。
这里写图片描述
两个基本假设:齐次马尔可夫性假设(当前隐状态只依赖前一状态)、观测独立性假设(观测只依赖当前状态)。
(一说三个假设:有限历史性假设,p(si|si-1,si-2,…,s1) = p(si|si-1)、齐次性假设,(状态与具体时间无关),P(si+1|si)=p(sj+1,sj)、输出独立性假设,输出仅与当前状态有关,P(o1,…ot|s1,…st) = P(ot|qt))
基于两个基本假设,我们可以计算出某个特定的状态序列s1、s2、s3,···产生出输出符号o1,o2,o3,···的概率。
这里写图片描述
围绕着隐马尔可夫模型有三个基本问题:
1、概率计算问题:
给定一个模型,如何计算某个特定的输出序列的概率。
已知:模型λ=(A,B,π)、观测序列O。求:O观测序列出现概率P(O|λ)。
求解方法:直接计算法;前向算法(类似动态规划或剪枝);后向算法。即Forward-Backward算法;
2、预测问题:
给定一个模型和某个特定的输出序列,如何找到最可能产生这个输出的状态序列。
已知:模型λ=(A,B,π)、观测序列O。求:最有可能出现的状态序列 s。
求解方法:近似算法;维特比算法(动态规划递推地计算每一步的最优路径,即概率最大的一条)。
主要应用:中文分词。
3、学习问题
给定足够量的观测数据,如何估计隐马尔可夫模型的参数——Baum-Welch算法。
已知:观测序列O。 求:模型λ=(A,B,π)的参数,使得观测序列概率P(O|λ)最大。
方法:监督学习法(训练数据包括观测序列和对应状态序列);非监督学习方法(训练数据只包括观测序列)——EM算法(对数似然函数取期望的Q函数、极大化)
HMM是个五元组λ =( S, O , π ,A,B)
S:状态值集合,O:观察值集合,π:初始化概率,A:状态转移概率矩阵,B:给定状态下,观察值概率矩阵
应用实例:中文分词
中文分词,就是给一个汉语句子作为输入,以“BEMS”组成的序列串作为输出,然后再进行切词,进而得到输入句子的划分。其中,B代表该字是词语中的起始字,M代表是词语中的中间字,E代表是词语中的结束字,S则代表是单字成词。
例如:给个句子

小明硕士毕业于中国科学院计算所

得到BEMS组成的序列为

BEBEBMEBEBMEBES

因为句尾只可能是E或者S,所以得到切词方式为

BE/BE/BME/BE/BME/BE/S

进而得到中文句子的切词方式为

小明/硕士/毕业于/中国/科学院/计算/所

这是个HMM问题,因为你想要得到的是每个字的位置,但是看到的只是这些汉字,需要通过汉字来推出每个字在词语中的位置,并且每个字属于什么状态还和它之前的字有关。
此时,我们需要根据可观察状态的序列找到一个最可能的隐藏状态序列。

参考资料:
《数学之美》
《统计学习方法》

相关资料:
隐马尔科夫模型(HMM)一基本模型与三个基本问题(例子很简单易懂)
隐马尔科夫模型(HMM)一前向与后向算法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值