【中文分词】隐马尔可夫模型HMM

45 篇文章 8 订阅 ¥19.90 ¥99.00

Nianwen Xue在《Chinese Word Segmentation as Character Tagging》中将中文分词视作为序列标注问题(sequence tagging problem),由此引入监督学习算法来解决分词问题。

1. HMM

首先,我们将简要地介绍HMM(主要参考了李航老师的《统计学习方法》)。HMM包含如下的五元组:

  • 状态值集合\(Q=\{q_1, q_2, \cdots, q_N\}\),其中\(N\)为可能的状态数;
  • 观测值集合\(V=\{v_1, v_2, \cdots, v_M\}\),其中\(M\)为可能的观测数;
  • 转移概率矩阵\(A=\left[ a_{ij} \right]\),其中\(a_{ij}\)表示从状态\(i\)转移到状态\(j\)的概率;
  • 发射概率矩阵(在[2]中称之为观测概率矩阵)\(B=\left[ b_{j}(k) \right]\),其中\(b_{j}(k)\)表示在状态\(j\)的条件下生成观测\(v_k\)的概率;
  • 初始状态分布\(\pi\).

一般地,将HMM表示为模型\(\lambda = (A, B, \pi)\),状态序列为\(I\),对应测观测序列为\(O\)。对于这三个基本参数,HMM有三个基本问题:

  • 概率计算问题,在模型\(\lambda\)下观测序列\(O\)出现的概率;
  • 学习问题,已知观测序列\(O\),估计模型\(\lambda\)的参数,使得在该模型下观测序列\(P(O|\lambda)\)最大;
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浅唱书令

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值