信达雅的原则;
数据->模型->训练。
Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
问题出发点:在只有少量手工标注数据和大量无标注数据的前提下,使用无标注数据会有损模型性能,为了解决这个问题,文章提出了如下的三段论模型。
模型部分:
- Stage I: Domain Continual Pre-training over Unlabeled Data
使用掩码语言模型在领域内的无标注数据上做预训练,初始化参数为PLM的参数。——目的可能为了让PLM适应新领域的语言特征
- Stage II: Noise-Aware Continual Pre-training over both Strongly and Weakly labeled Data
基于知识库对无标注数据做soft label,之后,在weak label data和labeled data上做PLM。——文章给出的解释是防止PLM在labeled data过拟合。
- Stage III: Final Fine-tuning
在labeled data上重新做fine tune操作。——应该还原到目的,还是为了做好最初的任务。
实验部分:
I,II 训练模型一个epoch,batch size=144
III 网格搜索最佳参数
代码部分:
run_language_modeling.py_PLM部分。
数据流
Labeled data—初始化NER model—>dev.txt(不太清楚做的工作)--weak.txt—refine过程àtraining with noise aware lossàfine tune