Ner_野战经验

一、Ner任务——实验原理

1、定义{五大类}[BMEO]

1、Ner本质是序列标注,标出他们的类别【实体分类任务】:
      1、不考虑实体类型,有四个标签{BMEO}

      ## 1、确定实体的类型:

           一边标注一般是类别(人名、地名、组织机构,时间日期、专有名词)
           
           训练一个判别器,输入一个字,输出该字的类别
      
      ## 2、实体的边界识别
           1、并不是说“张”这个字一定代表实体词首,有可能是“张开”这个词的起始,
        但“张开”并非实体。因此,每一帧都是上下文关联的,如“张”后面跟着“翠山”,
        那么“张”就是实体词首,反之则不一定。同时目标输出序列本身会带有一些上下文的关联,
        比如实体词尾前一帧不可能是非实体,实体词中后一帧要么是实体词中要么是实体词尾。
        逐帧分类是将序列标注看成 n 个 k 分类问题,而真正的序列标注是 1 个 k^n 分类问题
   
        综合:序列标注就是n个词,有k个标签可能性,输出k^n种不同数据

2、条件随机场
      CRF是一种鉴别式机率模型,计算条件概率。
      对输入 s 和 标注每个
      给标注存在的边的一种权重,找到权重最高的一条路径作为输出,CRF定义特征函数给边赋予权重
      
        score(l/s) = 权重f(s,i,li,li-1)  然后对分数指数化和标准化,就得到序列概率值     
        s:输入句子
        i:句子s中的第i个标签
        li:第i个词的标签
        li-1:上一个词的标签

3、BiLSTM—CRF——用来建模上下文信息。
   
   优势:

       1、神经网络超强的非线性拟合能力,在训练时将数据变换到高维度的非线性空间中去,
   从而学习出一个模型
   
   缺点:

       1、BiLSTM 的精度非常的高,但是在预测时,会出现一些明显的错误,
   如实体词尾后一帧依然预测为实体词尾等

   解决的方法:
      
       结合的好处:CRF特征函数的存在,限定标签之间的关系。BiLSTM 提取高效的特征。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值