《BOND: BERT-Assisted Open-Domain Named Entity Recognition with Distant Supervision》2020 论文阅读

TASK:open-domain named entity recognition (NER)

ISSUE:distant supervision虽然不需要大量的手工标注,但通过外部知识库产生高度不完整和嘈杂的distant labels

作者提出了两步训练算法,第一步使用预训练的模型(BERT)进行初始化,提高recall和精确度,第二步使用teacher-student模型进行自训练

 

 

Method

BERT-Assisted Distantly Supervised Learning with Early Stopping

使用预训练的BERT模型,并采用Early stop训练策略

The Teacher-student Framework.

  • teacher和student的初始化参数都使用BERT模型训练后的参数
  • teacher初始化参数使用BERT模型训练后的,student使用预训练的BERT模型参数(re-initialization)

teacher生成伪标签,student使用伪标签进行训练,t次迭代后,更新teacher模型,令teacher=student,通过对伪标签的逐步细化,学生模型可以逐步挖掘伪标签中的知识,避免过拟合。

由于通过步骤(4)所生成的label,只保留了置信度最高的类别,作者认为这样会失去来自其他类别的信息,因此提出使用soft labels with confidence re-weighting. 根据每个类别出现的频率,对label加权,这种做法会更加偏向于置信度高的类

High-Confidence Selection.

作者进一步基于预测的类的置信度进行过滤,选择那些高于阈值的预测类的token对student使用KL散度进行优化

 

Experiment

Soft label的提升是很大的, 这验证了软标签比硬标签保存了更多的信息,并生成了更好的拟合模型

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值