[论文阅读笔记44]Named Entity Recognition without Labelled Data：A Weak Supervision Approach

最新推荐文章于 2022-07-22 11:25:33 发布

happyprince

最新推荐文章于 2022-07-22 11:25:33 发布

阅读量713

点赞数 1

分类专栏： NLP 深度学习 NER 文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/ld326/article/details/118582893

版权

NLP 同时被 3 个专栏收录

79 篇文章 6 订阅

订阅专栏

深度学习

40 篇文章 5 订阅

订阅专栏

NER

39 篇文章 14 订阅

订阅专栏

一，题目

Named Entity Recognition without Labelled Data：A Weak Supervision Approach
无标记数据的命名实体识别: 一种弱监督方法
挪威奥斯陆大学 — 挪威

二，摘要

问题：在目标域没有手工标记的数据时，NER怎么进行问题？
解决：提出弱监督方案；依赖于广泛的标签函数来自动注释目标域的文本，然后使用Markov模型把这些标签整合在一起，把整合后的标注送入到最终的NER模型进行识别。
效果：经过两个英文数据集做实验在实体层次上有7个百分点的提升；

三，背景与相关技术

背景：NER很重要，可在实际的环境中，研究的目标域因为没有标注数，不可作迁移学习。
解决方法：提出ws在没有标签数据的情况下去bootstrap（提升）NER模型；这个方法主要是依赖标注函数去标注，然后通过考虑标注的准确性与混淆性使用HMM模型统一这些带有noise的标签，最后再采用最终的模型去进行训练。
特点：标注函数允许我们向序列标注模型注入专业的知识；
贡献：
1. NER的广泛的标签函数集合，包括在不同文本领域上训练的神经模型、地名词典、启发式函数和文档级约束。
2. 一种新的弱监督模型，适合于序列标签任务，并能够包括概率标签预测。
3. 标签函数和聚合模型开源；

3.1 无监督域自适应

 无监督域适应试图调整来自源域的知识来预测通常具有本质上不同特征的目标域中的新实例。
 方法: 
      使用pivots调整特征空间（SCL）；
      代维转换特征空间；
      划分成一般与域特征；
      多任务；
      基于域自适应的微调；

3.2 注释的聚合

1. Bayesian Classifier Combination approach；
2. learn a generative model；
3. Conditional Random Fields (CRFs)；
4. Hidden Markov Model；
5. Fully Bayesian approach；

3.2 弱监督

1. distant supervision
2. Snorkel framework; 
3. Deep probabilistic logic: A unifying framework for indirect supervision
4.  Swellshark
5. 2020 - Weakly supervised sequence tagging from noisy rules

文章提出：linking rules

3.3 集成学习

bagging, boosting and random forests

四，方法模型

4.1 Labelling functions – 标注函数

域外模型：使用已有的标注数据中进行训练模型，来自于四个数据(Ontonotes, CoNLL 2003,Broad Twitter Corpus, NER-annotated corpus of SEC filings)。
这些模型都是由biLSTM+CRF的模型训练出来的；
Gazetteers：Wikipedia,Geonames,Crunchbase Open Data Map, DBPedia
Heuristic functions(启发式): 每个函数专门识别特定类型的命名实体。例如 日期、时间、金额、百分比和基数/序号值这些特殊实体，是由专门的启发式来处理。
Document-level relations： 引入一个标签函数来捕获文档中的标签一致性约束；