一、Ner任务——实验原理
1、定义{五大类}[BMEO]
1、Ner本质是序列标注,标出他们的类别【实体分类任务】:
1、不考虑实体类型,有四个标签{BMEO}
## 1、确定实体的类型:
一边标注一般是类别(人名、地名、组织机构,时间日期、专有名词)
训练一个判别器,输入一个字,输出该字的类别
## 2、实体的边界识别
1、并不是说“张”这个字一定代表实体词首,有可能是“张开”这个词的起始,
但“张开”并非实体。因此,每一帧都是上下文关联的,如“张”后面跟着“翠山”,
那么“张”就是实体词首,反之则不一定。同时目标输出序列本身会带有一些上下文的关联,
比如实体词尾前一帧不可能是非实体,实体词中后一帧要么是实体词中要么是实体词尾。
逐帧分类是将序列标注看成 n 个 k 分类问题,而真正的序列标注是 1 个 k^n 分类问题
综合:序列标注就是n个词,有k个标签可能性,输出k^n种不同数据
2、条件随机场
CRF是一种鉴别式机率模型,计算条件概率。
对输入 s 和 标注每个
给标注存在的边的一种权重,找到权重最高的一条路径作为输出,CRF定义特征函数给边赋予权重
score(l/s) = 权重f(s,i,li,li-1) 然后对分数指数化和标准化,就得到序列概率值
s:输入句子
i:句子s中的第i个标签
li:第i个词的标签
li-1:上一个词的标签
3、BiLSTM—CRF——用来建模上下文信息。
优势:
1、神经网络超强的非线性拟合能力,在训练时将数据变换到高维度的非线性空间中去,
从而学习出一个模型
缺点:
1、BiLSTM 的精度非常的高,但是在预测时,会出现一些明显的错误,
如实体词尾后一帧依然预测为实体词尾等
解决的方法:
结合的好处:CRF特征函数的存在,限定标签之间的关系。BiLSTM 提取高效的特征。