©PaperWeekly 原创 · 作者|张琨
学校|中国科学技术大学博士生
研究方向|自然语言处理
论文标题:
Curriculum Learning for Natural Language Understanding
论文作者:
Benfeng Xu, Licheng Zhang , Zhendong Mao, Quan Wang, Hongtao Xie and Yongdong Zhang
论文链接:
https://www.aclweb.org/anthology/2020.acl-main.542/
动机
伴随着 Bert 等预训练模型在自然语言处理领域的全面铺开,在预训练模型上进行 fine-tune 已经成为当前自然语言处理各种研究的一个标配。在微调阶段,目标数据会被一股脑的抛给模型,用于训练一个在具体任务上的模型。
但数据集中的数据之间是存在难易程度的,有些例子很容易被区分,有些例子就很难被区分,例如下图展示的 SST-2 情感分类任务上的一个数据样例,简单的例子可以直接利用一些词进行分类,例如 easy,comfortable 等,但一些比较困难的例子就需要模型能够对句子中的具体片段内容进行语义理解和分析了。
如果把这些样例不加区分直接扔给模型,那么就可能出现模型在简单例子上用力过猛,在复杂例子上不够用力,从而导致模型难以训练,同时难以取得更好的效果。而人在学习过程中基本上是从易到难的,先学简单的,在学复杂的,这称之为课程学习(Curriculum Learning