Improving Performance of Automated Essay Scoring by using back-translation essays and adjusted score

《利用回译作文和调整分数提高作文自动评分的性能》学习

1.Background

  • 以往的工作通过改变神经网络模型的结构或添加其他特征来提高性能。但是,作者通过从原始数据生成更多有用的数据来提高性能。(为啥会有这样的想法)因为作者发现数据扩充技术已经被应用到其他自然语言处理任务中,并显示出良好的性能。然而,还没有将数据增强技术应用于AES的例子。
  • 回译是指将原始数据翻译成其他语言,然后再翻译回来,以获得原始语言的新数据。此方法重写整个文本,而不替换单个单词。

2.Innovate

  • 在AES中引入了数据增强。我们通过随作文调整分数来证明数据扩充的可能性。
  • 分析了回译作文的特点,提出了一种适用于AES数据中回译作文的分数调整方法。

3.Augmented data (扩充数据)

3.1 Original dataset (原始数据)

2012年,Kaggle主持了ASAP竞赛,以评估AES系统的能力。ASAP数据集包含了从7年级到10年级的学生所写的作文。大约有13,000篇作文对应于8个提示。对于个别提示,论文数量不到2000篇。表2列出了具体的数据集信息。每个提示都有不同的分数范围和论文数量。比赛中使用的测试集是不公开的。
ASAP数据集地址:
https://www.kaggle.com/c/asap-aes

3.2 Back-translation (回译)

使用原始数据的文章来获取回译文章。
方法:使用谷歌翻译来对这些文章进行汉译,以及法译。这些文章被分为八等份,进行翻译。

3.3 Score adjustment (分数调整)

由于是反向翻译的文章,所以必须给一个对应的分数,以便后期对文章的判断。

3.3.1 调整分数的方法
  1. 回译的文章分数=原文章分数;
  2. 通过微调原始分数来提供更合适的分数;调整分数

4.Model

在这里插入图片描述

我们使用了两个模型来确定增加的数据是否提高了模型的性能(参见图4)。作为第一个模型,我们使用了“操纵长度-GRU”。该模型不像文献[4]中的模型或其他模型那样,将重复层的输出除以文章的长度,而是除以每个提示中包含的论文的平均长度。以GRU作为复发层。
作为第二个模型,使用了“正在考虑内容-LSTM”。该模型计算了三个层次的范例文章的词汇分布与输入文章的词汇分布之间的KL离散度,并将它们连接到递归层的平均输出。在该模型中,递归层的输出像在第一个模型中一样被处理。在[7]中,使用了GRU和XLNet,但我们使用了广泛用于AES的LSTM。
作为单词向量,这些模型使用了Glove,这是一个针对Google News训练的100维预训练嵌入模型。

5.Result

在本文中,我们通过使用回译作文和调整分数来提高AES的表现。我们为ASAP数据集生成了回译文章并调整了分数,并证实了扩充后的数据的有效性。我们针对具体提示使用了不同的分数调整方法,找到了一种合理的方法。我们用中文和法语为ASAP数据集生成了回译文章。保持分数是有效的,就像对分数范围较小的提示一样。对于分数范围较大的提示,以最高频次分数为基础,对高分作文增加分数,对低分作文保持分数是有效的。对于提示2、3、4、6和8,获得了比使用原始数据时更高的性能。性能平均提高了0.2%。此外,我们还发现,扩展后的数据比原始数据收敛到最优模型的速度更快,在一定程度上减少了数据扩展带来的时间增加的影响。通过使用数据增强来提高AES的性能,即使在由于各种限制而不能充分建立数据集的情况下,也有可能在一定程度上进一步提高性能。换句话说,它为仅通过神经网络模型更新进行的AES任务提供了新的研究可能性。在未来的工作中,我们将探索更多的数学理论和实用的回译作文分数调整方法。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值