[论文阅读笔记44]Named Entity Recognition without Labelled Data:A Weak Supervision Approach

40 篇文章 5 订阅
39 篇文章 14 订阅

一,题目

Named Entity Recognition without Labelled Data:A Weak Supervision Approach
无标记数据的命名实体识别: 一种弱监督方法
挪威奥斯陆大学 — 挪威

二,摘要

问题:在目标域没有手工标记的数据时,NER怎么进行问题?
解决:提出弱监督方案;依赖于广泛的标签函数来自动注释目标域的文本,然后使用Markov模型把这些标签整合在一起,把整合后的标注送入到最终的NER模型进行识别。
效果:经过两个英文数据集做实验在实体层次上有7个百分点的提升;

三,背景与相关技术

背景:NER很重要,可在实际的环境中,研究的目标域因为没有标注数,不可作迁移学习。
解决方法:提出ws在没有标签数据的情况下去bootstrap(提升)NER模型;这个方法主要是依赖标注函数去标注,然后通过考虑标注的准确性与混淆性使用HMM模型统一这些带有noise的标签,最后再采用最终的模型去进行训练。
特点:标注函数允许我们向序列标注模型注入专业的知识;
贡献:
1. NER的广泛的标签函数集合,包括在不同文本领域上训练的神经模型、地名 词典、启发式函数和文档级约束。
2. 一种新的弱监督模型,适合于序列标签任务,并能够包括概率标签预测。
3. 标签函数和聚合模型开源;

3.1 无监督域自适应
 无监督域适应试图调整来自源域的知识来预测通常具有本质上不同特征的目标域中的新实例。
 方法: 
      使用pivots调整特征空间(SCL);
      代维转换特征空间;
      划分成一般与域特征;
      多任务;
      基于域自适应的微调;
3.2 注释的聚合
1. Bayesian Classifier Combination approach;
2. learn a generative model;
3. Conditional Random Fields (CRFs);
4. Hidden Markov Model;
5. Fully Bayesian approach;
3.2 弱监督
1. distant supervision
2. Snorkel framework; 
3. Deep probabilistic logic: A unifying framework for indirect supervision
4.  Swellshark
5. 2020 - Weakly supervised sequence tagging from noisy rules

文章提出:linking rules

3.3 集成学习
bagging, boosting and random forests

四,方法模型

image-20210708135850890

4.1 Labelling functions – 标注函数

域外模型:使用已有的标注数据中进行训练模型,来自于四个数据(Ontonotes, CoNLL 2003,Broad Twitter Corpus, NER-annotated corpus of SEC filings)。
这些模型都是由biLSTM+CRF的模型训练出来的;
Gazetteers:Wikipedia,Geonames,Crunchbase Open Data Map, DBPedia
Heuristic functions(启发式): 每个函数专门识别特定类型的命名实体。例如 日期、时间、金额、百分比和基数/序号值这些特殊实体,是由专门的启发式来处理。
Document-level relations: 引入一个标签函数来捕获文档中的标签一致性约束;

4.2 Aggregation model

HMM模型。

image-20210708145757074

相关模型图:

image-20210708145851411

参数评估

4.3 Sequence labelling model

image-20210708150637952

实验

数据集:

CoNLL 2003

Reuters & Bloomberg

基线:

Ontonotes-trained NER

Majority voting (MV)

Snorkel model

mSDA

AdaptaBERT

Mixtures of multinomials

Accuracy model (ACC) ,

Confusion vector (CV),

Confusion matrix (CM) ,

Sequential Confusion Matrix (SEQ),

Dependent confusion matrix (DCM)

结果:

image-20210708151732848

从这个数据来分析,启发式的规则,还是比较不错的。虽然是有提升的,可是总感觉提升出来的结果不是太优秀,或者可能是受到了实验数据的影响。

image-20210708151823116

总结

WS的一个应用, 模型思想是一个旧思想。文章设置的函数值得借鉴学习下。实验还是比较丰富的。

image-20210708152425757

参考

https://www.aclweb.org/anthology/2020.acl-main.139/
https://github.com/NorskRegnesentral/weak-supervision-for-NER

其它知识

Structural Correspondence Learning:结构对应学习包括一个源域和一个目标域。两个域都有足够的未标记数据,但只有源域有标记的训练数据。
该方法通过建模来自不同领域的特征与支点特征的相关性来识别这些特征之间的对应关系.

happyprince

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值