自然语言处理之序列标注（一）

最新推荐文章于 2024-04-01 21:51:53 发布

Bystander~

最新推荐文章于 2024-04-01 21:51:53 发布

阅读量2.2k

点赞数 1

分类专栏： python自然语言处理NLP

本文链接：https://blog.csdn.net/weixin_43458484/article/details/102730343

版权

本文介绍了序列标注问题，包括中文分词、词性标注和命名实体识别，强调了隐马尔可夫模型在这些问题中的重要性。详细阐述了隐马尔可夫模型的初始状态概率向量、状态转移概率矩阵、发射概率矩阵以及其三种基本用法，并通过医疗诊断的案例说明了样本生成的过程。

摘要由CSDN通过智能技术生成

隐马尔可夫模型与序列标注（一）

1、序列标注问题

序列标注问题指的是给定一个序列x=x1x2……xn，找出序列中每个元素对应标签y=y1y2……yn的问题。最简单的，输入一个自然数序列，输出他们的奇偶性，按序列排成另一个序列。这时标注集为{奇，偶}，标注过程如下：
![在在这里插入图片描述

1.1序列标注与中文分词

{B，M，E，S}法——B（Begin）、E（End）分别表示词语首尾；M（Middle）表示词中；S（Single）表示单字成词。BMES标注完后，分词器将最近两个BE标签对应区间内的所有字符合并为一个词语，S标签对应字符作为单字词语，按顺序输出即完成分词。

1.2序列标注与词性标注**

词性标注任务是一个天然的序列标注问题且不是唯一的，**人们根据需要制定不同的标注集。**如：（）内为标注
参观（动词）了（助词）北京（地名）天安门（地名）

1.3序列标注与命名实体识别

命名实体指的是现实存在的实体，比如人名、地名、机构名。通常简短的人名较好标注，地名、机构名较难识别，这时常常需要在分词和词性标注的中间结果上进行召回。
命名实体识别可以复用BMES标注，沿用中文分词逻辑，只不过标注的对象由字符变为单词。且命名实体识别还需要确定实体所属的类别。，如构成地名的单词标注为“B/M/E/S-地名”，对于不构成命名实体的单词，统一标注为O（Outside）。样例如下：
参观了北京天安门
（O）（O）（B—地名）（E—地名）

2、隐马尔可夫模型

隐马尔可夫模型是描述两个时序序列联合分布p(x,y)的概率模型，x为观测序列，y为状态序列。
马尔可夫假设：每个事件发生的概率只取决于前一个事件。在NLP语境下，将事件具体化为单词，则马尔可夫模型就具象为二元语法模型。
隐马尔可夫模型假定先有状态，后有观测,取决于两个序列的可见与否。

2.1初始状态概率向量

系统启动时的第一个状态y1为初始状态，若y1有N种可能取值: 在这里插入图片描述
则y1就是一个独立的离散型随机变量，描述为：
其中，

,pi称为初始状态概率向量。

2.2状态转移概率矩阵

马尔可夫假设，t+1时的状态仅取决于t时状态，则状态i到状态j构成了一个N*N的方针，称为状态转移概率矩阵A:
在这里插入图片描述

2.3发射概率矩阵

当前观测xt仅取决于当前状态yt，即给定每种y，x都是一个独立的离散型随机变量，其参数对应一个离散向量。假设观测x共有M种可能取值，y有N种，则这些参数构成了N*M的矩阵，称为发射概率矩阵B，其中第i行j列的元素下标i和j分别代表观测和状态的第i种和第j种取值。
在这里插入图片描述

2.4隐马尔可夫模型的三个基本用法

(1)样本生成问题：对于给定的模型，生成满足模型约束的样本，以及其对应的状态序列；（2）解决模型训练问题，给定训练集，估计待估参数；（3）序列预测问题：对于给定的模型，给定观测序列x，求最可能的状态序列y。

（1）样本生成案例——医疗诊断
假设来诊者只有两种状态:健康/发烧。来诊者不知道自己是哪种状态，智能回答感觉头晕、体寒、正常。医生认为，感冒这种病只跟病人前一天的状态有关，且当天的病情取决于当天的身体状况。医生根据经验，发现感冒的规律如下所示：
在这里插入图片描述
样本生成算法：
考虑长T的样本序列，它的生成过程就是沿着隐马尔可夫链走T步。
（1）根据初始状态概率向量采样第一个时刻的状态y1=si，即y1~pi;
(2) yt采样结束得到si后，根据状态转移概率矩阵第i行的概率向量Ai，采样下一时刻的状态yt+1，即yt+1~Ai;
(3) 对每个yt=si,根据发射概率矩阵的第i行Bi，采样xt，即xt~Bi;
(4) 重复步骤（2）共计T-1次，重复步骤（3）共计T次，输出序列x,y.