【NLP】HMM 词性标注&中文分词

最新推荐文章于 2024-01-23 15:49:31 发布

maershii

最新推荐文章于 2024-01-23 15:49:31 发布

阅读量5k

点赞数

分类专栏： NLP 文章标签： NLP ML

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013166817/article/details/85805513

版权

文章目录

HMM词性标注
HMM中文分词

HMM词性标注

HMM是一个生成模型，由隐藏状态序列生成观测序列。HMM有三个重要知识点：HMM的三个参数：初始概率，状态转移概率，和观测概率。HMM三个任务：预测问题(计算观测序列的概率)，解码问题(已知观测序列求最可能产生该观测序列的状态序列)，以及学习问题(学习HMM的三个参数)。HMM两个假设：齐次马尔可夫假设（当前状态只与前一状态有关）和观测独立假设（当前观测只与当前状态有关）。HMM详细的介绍可以参照《统计学习方法》的第十章。这里我就简单介绍一下HMM如何用于词性标注（POS tagging）。

任务描述

输入序列 O：I love NLP.
输出序列 T：PRP VB NN

其中PRP是人称代词， VB是动词原形，NN是名词。这里只是举个例子，实际任务中的POS tag会复杂很多。对应于HMM模型，状态序列对应了序列T，也就是词性标签序列；而观测序列对应了序列O。因此词性标注可以理解为HMM三大问题中的第三个问题：解码问题。因此，我们的目标是得到最符合原句子词性的组合序列，即：

$T = argmax_T P(T|O)$

其中：

$\{O_1, O_2,...,O_N\} \text{，是观测序列。}$

$\{T_1, T_2,...,T_N\} \text{，是状态/标签序列。} T_i \in all \ POS\ tags$

贝叶斯转换

根据贝叶斯公式：

$\frac{P(O|T)P(T)}{P(O)}$
首先，由于对于给定的观测序列P(O)是固定不变的，因此我们可以省略分母。其次，在贝叶斯公式中P(O|T)被称为似然函数，P(T)被称为先验概率。对应到我们的任务，P(O|T)是“已知状态序列T求观测序列O的概率”，P(T)则是状态序列本身的概率,因此任务变成了：

$T = argmax_TP(T|O) = argmax_T P(O|T)P(T)$

最低0.47元/天解锁文章

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
【NLP】HMM 词性标注&中文分词

HMM中文分词是一种：字标注法。即将分词任务转化成对每个字进行标注标签问题。任务介绍对中文句子进行分词，比如：原句：我喜欢机器学习。分词后：我\喜欢\机器学习。问题分析对每个字赋予一个标签，‘B’代表非词尾，‘E’表示词尾。则上述例子应该被标记为：标记后：我E喜B欢E机B器B学B习E。假设观测序列为O={O1,O2,...,ON}O = \{O_1, O_2, ......
复制链接

扫一扫

专栏目录

maershii CSDN认证博客专家 CSDN认证企业博客

码龄11年

39: 原创

18万+: 周排名

148万+: 总排名

13万+: 访问

: 等级

1418: 积分

25: 粉丝

56: 获赞

10: 评论

407: 收藏

私信

关注

热门文章

分类专栏

python 1篇
lintcode 1篇
github 1篇
软件安装与使用 1篇
机器学习 10篇
leetcode 21篇
深度学习 3篇
NLP 2篇

最新评论

【leetcode】输出一个数的所有质数因子
【浅滩】: [code=csharp] #define _CRT_SECURE_NO_WARNINGS 1 #include <stdio.h> int main() { int a, b; b = 2; //输入你要计算的值 scanf("%d", &a); //判断大于1,1没有质因数 while (a>1) { //判断b是否是a的因数，是就进入循环，否就判断下一个自然数 if (a % b == 0) { //将值分解成质数相乘的式子如：12 = 2*2*3 //将确定是因数的值不断循环除尽然后输出 //偶数中只有2是质数，且是所有数中最小的质数 while (a % b == 0) { //循环将确定是因数的值不断除尽 a = a / b; } //输出确定的因数 printf("%d\n", b); } else { //判断不是因数，就跳过判断下一个 b++; } } return 0; } [/code]
【机器学习】朴素贝叶斯基本介绍+代码实现
qq_40902046: 上面的正则表达式写错了吧
【机器学习】线性回归+代码实现
wangkai12123: 想要数据集
【leetcode】输出一个数的所有质数因子
飞鱼9372: 判断n%i == 0以后没有给n重新赋值，造成while死循环[code=python] def findPrime(n): if n <= 1: return i = 2 res = [] while n > 1: if n%i == 0: n = n/i res.append(i) else: i+=1 return res [/code]
【机器学习】线性回归+代码实现
qq_44686396: 找不到你的feliname文件

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。