TASK:open-domain named entity recognition (NER)
ISSUE:distant supervision虽然不需要大量的手工标注,但通过外部知识库产生高度不完整和嘈杂的distant labels
作者提出了两步训练算法,第一步使用预训练的模型(BERT)进行初始化,提高recall和精确度,第二步使用teacher-student模型进行自训练
Method
BERT-Assisted Distantly Supervised Learning with Early Stopping
使用预训练的BERT模型,并采用Early stop训练策略
The Teacher-student Framework.
- teacher和student的初始化参数都使用BERT模型训练后的参数
- teacher初始化参数使用BERT模型训练后的,student使用预训练的BERT模型参数(re-initialization)
teacher生成伪标签,student使用伪标签进行训练,t次迭代后,更新teacher模型,令teacher=student,通过对伪标签的逐步细化,学生模型可以逐步挖掘伪标签中的知识,避免过拟合。
由于通过步骤(4)所生成的label,只保留了置信度最高的类别,作者认为这样会失去来自其他类别的信息,因此提出使用soft labels with confidence re-weighting. 根据每个类别出现的频率,对label加权,这种做法会更加偏向于置信度高的类
High-Confidence Selection.
作者进一步基于预测的类的置信度进行过滤,选择那些高于阈值的预测类的token对student使用KL散度进行优化
Experiment
Soft label的提升是很大的, 这验证了软标签比硬标签保存了更多的信息,并生成了更好的拟合模型