什么是序列标注

序列标注

序列标注是一个比较简单的NLP任务,也可称为最基本的任务,序列标注给定一个输入序列,使用模型对这个序列的每一个位置标注一个相应的标签,是一个序列到序列的过程。序列标注涵盖范围非常广,可以解决一系列对字符进行分类的问题,如分词、词性标注、命名实体识别、关系抽取等。
序列标注可以分为原始标注和联合标注。原始标注就是每个元素中都需要被标注一个标签,联合标注就是所有的分段都被标注为同样的标签。命名实体识别就是信息提取问题的一个子任务。需要将元素进行定位和分类,如人名、地点、时间、组织名、质量等。

BIO标注的简介

解决联合标注问题的最简单方法,就是将其转换为原始标注问题,即使用BIO标注。
BIO标注是将每个元素标注为“ B − X B-X BX”、“ I − X I-X IX”或者“ O O O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素为词片段的起始词,“I-X”表示此元素所在的片段属于X类型并且此元素为词片段的起始词之后的词,“O”表示该字不属于事先定义的任何词片段类型

常见的序列标注还有BIOES标注和BMES标注。

BIOES标注主要将多元实体X标注为 B − X , I − X , E − X B-X,I-X,E-X BX,IX,EX的格式,B-表示实体的开头,I-表示实体的中间;0-代表非实体部分;E-代表实体的结尾;S-代表单个字符,其本身就是一个实体
BMES标注中的B-代表实体的开头,M-代表实体的中间,O-代表非实体部分,E-代表实体的结尾、S-代表单个字符,其本身就是一个实体。可以看出在很多任务以上各种标注体系的表现差异不大

经验

  • 会自己将标注任务都给其搞熟练。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

big_matster

您的鼓励,是给予我最大的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值