自然语言处理之序列标注(一)

隐马尔可夫模型与序列标注(一)

1、序列标注问题

序列标注问题指的是给定一个序列x=x1x2……xn,找出序列中每个元素对应标签y=y1y2……yn的问题。最简单的,输入一个自然数序列,输出他们的奇偶性,按序列排成另一个序列。这时标注集为{奇,偶},标注过程如下:
![在在这里插入图片描述

1.1序列标注与中文分词

{B,M,E,S}法——B(Begin)、E(End)分别表示词语首尾;M(Middle)表示词中;S(Single)表示单字成词。BMES标注完后,分词器将最近两个BE标签对应区间内的所有字符合并为一个词语,S标签对应字符作为单字词语,按顺序输出即完成分词。

1.2序列标注与词性标注**

词性标注任务是一个天然的序列标注问题且不是唯一的,**人们根据需要制定不同的标注集。**如:()内为标注
参观(动词) 了(助词) 北京(地名) 天安门(地名

1.3序列标注与命名实体识别

命名实体指的是现实存在的实体,比如人名、地名、机构名。通常简短的人名较好标注,地名、机构名较难识别,这时常常需要在分词和词性标注的中间结果上进行召回。
命名实体识别可以复用BMES标注,沿用中文分词逻辑,只不过标注的对象由字符变为单词。且命名实体识别还需要确定实体所属的类别。,如构成地名的单词标注为“B/M/E/S-地名”,对于不构成命名实体的单词,统一标注为O(Outside)。样例如下:
参观 了 北京 天安门
(O) (O)(B—地名)(E—地名)

2、隐马尔可夫模型

隐马尔可夫模型是描述两个时序序列联合分布p(x,y)的概率模型,x为观测序列,y为状态序列。
马尔可夫假设:每个事件发生的概率只取决于前一个事件。在NLP语境下,将事件具体化为单词,则马尔可夫模型就具象为二元语法模型。
隐马尔可夫模型假定先有状态,后有观测,取决于两个序列的可见与否。

2.1初始状态概率向量

系统启动时的第一个状态y1为初始状态,若y1有N种可能取值:在这里插入图片描述
则y1就是一个独立的离散型随机变量,描述为:在这里插入图片描述
其中,
在这里插入图片描述
在这里插入图片描述
,pi称为初始状态概率向量。

2.2状态转移概率矩阵

马尔可夫假设,t+1时的状态仅取决于t时状态,则状态i到状态j构成了一个N*N的方针,称为状态转移概率矩阵A:
在这里插入图片描述

2.3发射概率矩阵

当前观测xt仅取决于当前状态yt,即给定每种y,x都是一个独立的离散型随机变量,其参数对应一个离散向量。假设观测x共有M种可能取值,y有N种,则这些参数构成了N*M的矩阵,称为发射概率矩阵B,其中第i行j列的元素下标i和j分别代表观测和状态的第i种和第j种取值。
在这里插入图片描述

2.4隐马尔可夫模型的三个基本用法

(1)样本生成问题:对于给定的模型,生成满足模型约束的样本,以及其对应的状态序列;(2)解决模型训练问题,给定训练集,估计待估参数;(3)序列预测问题:对于给定的模型,给定观测序列x,求最可能的状态序列y。

(1)样本生成案例——医疗诊断
假设来诊者只有两种状态:健康/发烧。来诊者不知道自己是哪种状态,智能回答感觉头晕、体寒、正常。医生认为,感冒这种病只跟病人前一天的状态有关,且当天的病情取决于当天的身体状况。医生根据经验,发现感冒的规律如下所示:
在这里插入图片描述
样本生成算法:
考虑长T的样本序列,它的生成过程就是沿着隐马尔可夫链走T步。
(1)根据初始状态概率向量采样第一个时刻的状态y1=si,即y1~pi;
(2) yt采样结束得到si后,根据状态转移概率矩阵第i行的概率向量Ai,采样下一时刻的状态yt+1,即yt+1~Ai;
(3) 对每个yt=si,根据发射概率矩阵的第i行Bi,采样xt,即xt~Bi;
(4) 重复步骤(2)共计T-1次,重复步骤(3)共计T次,输出序列x,y.

python代码展示如下:</

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度学习进阶自然语言处理是指在深度学习的基础上,更加深入地应用于自然语言处理领域的技术和方法。它主要包括以下几个方面的内容: 1. 词向量表示:深度学习进阶自然语言处理中,常用的一种技术是将词语表示为向量形式,以便于计算机进行处理。常见的词向量表示方法有Word2Vec、GloVe等。 2. 语言模型:语言模型是自然语言处理中的一个重要任务,它用于预测下一个词语或者句子的概率。深度学习方法可以通过使用循环神经网络(RNN)或者Transformer等模型来建立语言模型。 3. 序列标注序列标注是指给定一个输入序列,为每个输入元素打上相应的标签。在自然语言处理中,常见的序列标注任务包括命名实体识别、词性标注等。深度学习方法可以通过使用条件随机场(CRF)或者长短时记忆网络(LSTM)等模型来解决序列标注问题。 4. 文本分类:文本分类是指将文本划分到不同的类别中。在自然语言处理中,常见的文本分类任务包括情感分析、垃圾邮件过滤等。深度学习方法可以通过使用卷积神经网络(CNN)或者循环神经网络(RNN)等模型来进行文本分类。 5. 机器翻译:机器翻译是指将一种语言的文本转换为另一种语言的文本。深度学习方法可以通过使用编码-解码模型,如循环神经网络(RNN)或者Transformer等模型来进行机器翻译。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值