论文复现-1:Perturbation CheckLists for Evaluating NLG Evaluation Metrics

以data2text任务为例,探讨generation metric矩阵对于一些句子扰动是否敏感,在多个维度上的敏感性如何?

1数据集

data2text数据集是由3025条samples构成,关键词由“ID”和“reference”构成。

每个子任务由对应的criteria:

在这里插入图片描述

2 数据集加工处理

数据集对应的perturb是采用了checklist包完成的,针对每个维度由相应的perturb 方法。
在这里插入图片描述

base中提供了替换否定词、同义词、消除stopwords这些操作,
data2text中
change_numeric:将数字转为文本描述;

change_names:更改name;
drop_phrases:drop掉一定量的word。

整个的代码做的是data generation,而且是perturb data的generation过程。
人工annotated data并没有给出。

git link:https://github.com/iitmnlp/EvalEval

3 metric实施

For BLEU , METEOR , ROUGE-L (Lin, 2004), CIDEr, Greedy Matching (GM)
(Rus and Lintean, 2012), and Vector Extrema (VE)
(Forgues and Pineau, 2014), we use the implementation provided by Sharma et al. (2017).

chrF++ (Popovic, 2017), TER (Snover et al., 2006),
BERTScore (Zhang et al., 2020), and BLEURT
(Sellam et al., 2020) we use the repository of Castro Ferreira et al. (2020).

For SMS (Clark et al.,2019), WMDo (Chow et al., 2019), and MoverScore (Zhao et al., 2019), we use the implementation provided by Fabbri et al. (2020)

代码中没有给出具体是怎么实施的。

总结

相似度metric的提出,有难度。
相似度metric好坏的评价,也有难度。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值