Learning from Noisy Labels for Entity-Centric Information Extraction
1领域
解决noisy label问题,采用多个独立的model,联合优化。——堪称人多力量大
我们的目标,是在不使用外部资源的情况下学习一个具有来自 D 的噪声标记实例的抗噪声模型
2总结
可以借鉴这种思路。处理noise label。
在消融实验中,提到,主要结果表明,在协正则化框架中使用模型的两个副本已经显着提高了性能。
3模型组成
整个模型是由两部分组成,一是task specific loss(每个特定任务下的loss),一是agreement loss(多个模型产生的loss,是为了评定多个模型预测的可能性分布的一致性——KL散度)。
KL散度是用来评价分布一致性的指标。
4模型训练过程
1. 初始化:多个结构相同的model用于解决同一个任务。任务特定模型的 M (M ≥ 2) 个副本组成,表示为 {fk}M
k=1,具有不同的初始化。关于初始化,对于从头开始训练的模型,所有参数都是随机初始化的否则,对于那些基于预训练语言模型的模型,只有语言模型外部的参数(例如,下游softmax 分类器的参数)被随机初始化,而预训练参数是相同的
2. warm-up phrase——在任务中微调模型参数,使得模型covergence on the task
3. 当一个新批次进来时,我们首先计算 M 个模型 {L(k) sup}M k=1 上的任务特定训练损失并将它们平均为 LT,然后更新模型参数 w.r.t。 LT。在warm-up之后,进一步引入了一致性损失 Lagg 来衡量从 M 个模型的预测到软目标概率 q 的距离。根据联合损失 L 相应地更新参数,鼓励模型生成与训练标签和软目标概率一致的预测。
5细节
每个target 的probability是通过average 所有的prediction得到。表示为:
在计算agreement loss时,是计算每个单独model和qi的KL散度得到的。
总的损失函数为: