命名实体识别:
命名实体:
地点:
人物:
机构:
完形填空:
标签方案:
通常,使用BIO或BIOES等标记方案来区分文本块的边界和类型。
在本例中,模型预测包含了一个非法的转换B-MISC→I-ORG。
标签序列(y1,……,yT)可以视为一条路径。如果一个路径至少包含一个非法转换,那么我们说它是一个非法路径。
默认方法:
Sang et al. (2000)提出:如果标记为I-X的单词遵循标记为O或I-Y的单词,块识别器的输出可能包含块标记中的不一致,而X和Y则不相同。这些不一致可以通过假设这样的I-X标签启动了一个新的块来解决。
高达40%的假阳性是由于非法路径:
Neural CRF模型
传统的Neural-CRF模型:
CRF模型为任何输入序列x和任何标签序列y分配一个分数s(y,x)。标记样品(x、y)的损失定义为:
用A表示转换矩阵,用W表示神经网络中所有剩余可训练参数的集合。
训练:
解码:
任务条件随机字段
让表示非法路径的集合,即:包含至少一个非法转换的路径。我们建议将“候选路径的空间”约束为所有合法路径的路径集:
训练:
解码:
掩码转移矩阵(Masked Transition Matrix):
主要结果:
MCRF算法:
CRF解码路径vs MCRF解码路径的一个例子:
实验结果:
Baseline:
中文NER的结果:
损失曲线:
CRF和MCRF在验证集上的损失曲线
完形填空的结果:
标签方案的消融研究:
在标签方案上的消融研究(BIO vs BIOES),绘制了验证集上的f1分数
贡献总结:
据我们所知,我们是第一个证明,在nery-CRF框架中,非法路径问题是内在的,可能占总错误的不可忽略的比例(高达40%)。
我们提出了蒙面条件随机场(MCRF),这是CRF的一个改进版本,通过设计免受非法路径问题。我们还为MCRF设计了一个算法,它只需要几行代码来实现。
我们在全面的实验中表明,MCRF的性能明显优于它的CRF对应物,并且其性能与更复杂的模型相当或更好。我们在两个中国NER数据集中实现了新的最先进水平。