命名实体识别

命名实体识别

命名实体识别:模型识别出文本中具有特定意义的实体字符串边界,并归类到预定义类别。
信息抽取(IE)=命名实体识别+关系抽取,进而将非结构化文本转变为结构化知识。
命名实体识别是信息抽取、问答系统、句法分析、机器翻译等NLP上层应用的重要基础工具。

标签体系

在这里插入图片描述
标签体系越复杂那么模型准确度也随之增高,但训练时间也会增加。
IO体系:O表示其它,I表示实体的位置(是实体),但IO体系无法区分出连续同类别的不同。
BIO体系:增加B,表示实体标识的开始,用于区分不同实体。但对于单独实体(一个字的实体)用B表示并不合理。
BIOES体系:B表示实体标识开始,E表示实体标识结束(用于区分实体),S标识单一实体。

命名实体识别发展历程

在这里插入图片描述

概率图模型

概率图模型就是一类用图表达变量相关关系的概率模型,通常用一个节点标识一个或一组随机变量,节点间的边表示变量间的概率关系,分为有向无环图和无向图模型。
在这里插入图片描述
在这里插入图片描述
隐马尔可夫模型在这里插入图片描述
隐马尔可夫模型是由初始状态概率向量、状态转移概率矩阵和观测概率矩阵决定。

  • 初始状态概率
    通常用 π \pi π表示,即 π = P ( i 1 = q i ) \pi=P(i_1=q_i) π=Pi1=qi
    在这里插入图片描述
    序列中第一个观测对象 O 1 O_1 O1的隐状态是 q i q_i qi的概率(一维向量)。
  • 状态转移概率
    P ( i t ∣ i t − 1 ) P(i_t|i_{t-1}) P(itit1)是隐状态i从t-1时刻转移到t时刻的概率。用A表示状态概率矩阵。
    在这里插入图片描述
    在这里插入图片描述
  • 发射概率
    发射概率 P ( o t ∣ i t ) P(o_t|i_t) P(otit)是指 o t o_t ot依赖于当前时刻的隐状态 i t i_t it的程度。
    用B表示发射概率矩阵
    在这里插入图片描述
    在这里插入图片描述
    条件随机场CRF
    设两组随机变量 X = ( X 1 , X 2 , … , X N ) X=(X_1,X_2,\dots,X_N) X=(X1,X2,,XN) Y = ( Y 1 , Y 2 , … , Y N ) Y=(Y_1,Y_2,\dots,Y_N) Y=(Y1,Y2,,YN),那么线性链条件随机场的定义为 P ( Y i ∣ X , Y i − 1 , Y i + 1 ) , i = 1 , … , n P(Y_i|X,Y_{i-1},Y_{i+1}),i=1,\dots,n P(YiX,Yi1,Yi+1),i=1,,n,当i为1或n时只考虑单边。
    在这里插入图片描述
    条件随机场定义:设X和Y是随机变量, P ( Y ∣ X ) P(Y|X) P(YX)是在给定X的条件下Y的条件概率分布。若随机变量Y构成一个由无向图G=(V,E)表示的马尔可夫随机场,即 P ( Y v ∣ X , Y w , w ≠ v ) = P ( Y v ∣ X , Y w , w − v ) P(Y_v|X,Y_w, w≠v)=P(Y_v|X,Y_w, w-v) P(YvX,Yw,w=v)=P(YvX,Yw,wv)对任意节点成立,则条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)为条件随机场。 w − v w-v wv表示在图G中与结点 v v v有边连接的所有结点 w w w w ≠ v w≠v w=v表示结点 v v v以外的所有结点。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值