《Distantly Supervised NER with Partial Annotation Learning and Reinforcement Learning》

  1. 问题:早前对NER的大多数研究都集中在一组预定义的NER类型上,比如人名、地名、组织名、日期等等,提供了一定数量的标记数据来训练模型。然而,不同的应用场景需要特定的实体类型,如电子商务领域的“Brand“Product”,金融行业的“Company”。考虑到人工标注的高成本,为每种新的NER类型标注大量数据是不可行的,但有时可以使用小规模数据。
  2. 方法:远程监控可以为新型NER自动生成大规模的标记数据,无需人工标注。

         我们首先获得一个包含新型实体列表的字典,然后,我们假设句子中提到的每个实体都是字典中对应类型的正实例,从而自动生成大规模的标记数据。然而,这种自动生成的数据存在两个主要问题:

  1. Incomplete annotations
  2. noisy annotations

  1. Distantly Supervised NER Data首先,我们有一个小的标注数据集H,一个大的无标注数据集U。我们收集命名实体来构造字典D,并使用D中的实体匹配U中句子的字符串。然后我们会获得一个句子集合,每个句子中至少包含一个匹配到的实体,记为A。最后可以利用H+A作为NER模型的训练数据。
  2. The Baseline LSTM-CRF
    1. The input layer: 使用预训练的Word2vec词向量
    2. The BiLSTM layer.
    3. The MLP layer.

               4. The CRF layer

 

         Incomplete annotations

          将这些不能根据字典进行匹配字符视为非实体是不合适的。

       我们为每一个远距离监督的句子表示一组标签序列z,其概率自然是z中每个可能的标签序列y的概率之和。将softmax应用于所有候选输出标签序列,从而计算出一个远程监督实例的概率如下:

 

 

  1. noisy annotations:

我们将初始的手工标记的数据集H和远程监督的数据集A合并到一个候选数据集C中。我们从C中收集一个随机大小的实例包为B。对于当前包中的每个远程监控实例,agent从集合{1.0}中执行一个action来决定是否选择该实例。当所有actions完成时,agent将收到reward。reward表示此包上的actions反馈,将用于更新agent。agent的目标是决定actions能够使报酬最大化。

     2. State representation:

状态 st 表示当前实例及其标签序列。我们将状态表示为一个向量 st,它由以下信息组成:(1)当前实例的序列化向量表示,从baseline模型的BiLSTM层得到。(2)从共享编码器MLP层计算出标签得分。

     3. Policy network.

agent决定一个action at ∈ {0,1} 表明是否会选择这个实例。

     4.Reward

Reward用于评估当前的NE tagger预测每个字符标签的能力。当模型完成当前包中的所有选择时,将获得延迟的平均reward,在此之前,每个action的reward为 0。

和《Reinforcement learning for relation classification from noisy data》不同的是,我们的selector可以在这些先验知识的指导下进行训练以确定哪些句子被正确标记。因此,reward将变得可靠和定向,并且它可以指导select以最大化训练数据集中所有实例的可能性。

Datasetes:

  1. EC: 在电子商务领域(EC),有五种类型的实体: Brand, Product, Model, Material, and Specification。该数据包含2400个标注的句子,使用1200个句子作为训练集,400个句子作为验证集,800个句子作为测试集。从训练数据中收集一个实体列表来构造字典。为了减少歧义的影响,我们删除了属于多个类型的实体,或者它是一个数字或单个字符。最后这个字典有927个实体。我们在原始数据集上执行远程监督最终获得2500个句子。
  2. NEWS: 对于新闻领域,我们使用来自MSRA的NER数据。只在PERSON这个类型下评测系统。我们随机选取了3000个句子作为训练数据集,3328个句子作为开发数据集,3186个句子作为测试数据集。其余的数据集用作原始数据,有36,602个句子。我们对原始数据进行远程监督,得到3722个句子。

Experimental

       我们从人工标注的数据H中随机抽取25%和50%的句子作为训练数据,并在此基础上分别构建新的实体字典。通过实验结果表明,使用较小的人工注释数据,我们提出的方法可以提供相对较大的改进。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值