Enhancing Automated Essay Scoring Performance via Fine-tuning Pre-trained Language Models with Combi

EMNLP20,AES里面为数不多的中顶会的文章。
contribution:

  1. 第一个在AES里面使用了BERT,同时提出了使用 regression 和 ranking 互补,来进行fine-tune,效果会比较好。可以当做目前为止,BERT在AES中的一个baseline.
  2. laboratory,大量的实验和比较,分析了当前各种AES的方法之间的优劣和对此的原因。
  3. 一个AES领域比较好的归纳,也可以当做是一篇review来看

novelty其实不大,主要是用了一个互补loss,基本思想就是觉得一开始fine-tune应该是ranking的占比比较大,但是由于一个batch ranking的supervision signal有限,后面会慢慢增加regression的占比,即dynamic的想法,其他都是常规。

introduction

首先,指出了当前BERT的使用之广,罗列了一些其他领域上fine-tune BERT的思路,认为在AES领域还没有fine-tune的先例;随后,讲了一下当前用neural做AES的范式:

  1. learning essay representation
  2. mapping function
  3. objective function

related

将当前AES的方法归为大致三类:

  1. prediction(classification / regression)
  2. recommendation(ranking)
  3. reinforce learning
  4. other (hand-crafted feature / statistic model)

具体对应的method这里不赘述

method

  1. BERT extractor
  2. FC
  3. Combination of Regression and Ranking(dynamic)

模型结构很简单,主要是objective function结合了两种loss,这里不过多赘述

experiment

在这里插入图片描述
实验做的还是比较多的,概括一下主要的结论:

  • bare 的neural model(LSTM/CNN)效果很差,BI-LSTM 和mean pooling之后的稍微好一点,很直接的原因就是essay太长出现的long term dependency,因此效果差于hand-crafted feature。
  • hierarchy和ensemble model的性能是comparable的,弥补bare neural的一些缺陷(模型参数更多更复杂了)
  • statistic model(HISK+BOSWE) outperform了许多neural的方法,同时在argumentative prompt上面效果最优(argument比较吃一些推理类型的key word,可能直接统计效果更好?回头去看看HISK+BOSWE)
  • self-attention能够在narrative上面表现地十分优异,这也和self-attention的强上下文理解能力有关。
  • ranking和regression呈现一定的互补性能

接下来还有可视化,发现attention能够集中于某些内容、主题相关的token(如下面的dog),这可能也是为何在narrative上面表现比较好的原因
在这里插入图片描述

future work

因为essay的长度原因,导致许多过长的essay没有办法把所有token喂给BERT,虽然实验中尝试取前和后,效果没有太多差异,但是这仍是一个用BERT做AES的比较好的方向,就是如何巧妙地解决长度限制,同时有更好的办法缓解long term dependency。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值