论文复现-1：Perturbation CheckLists for Evaluating NLG Evaluation Metrics

YingJingh

已于 2022-12-26 10:40:38 修改

阅读量524

点赞数

分类专栏：相似度文章标签：深度学习

于 2022-12-26 10:39:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Hekena/article/details/128440996

版权

相似度专栏收录该内容

27 篇文章 2 订阅

订阅专栏

以data2text任务为例，探讨generation metric矩阵对于一些句子扰动是否敏感，在多个维度上的敏感性如何？

1数据集

data2text数据集是由3025条samples构成，关键词由“ID”和“reference”构成。

每个子任务由对应的criteria：

在这里插入图片描述

2 数据集加工处理

数据集对应的perturb是采用了checklist包完成的，针对每个维度由相应的perturb 方法。
在这里插入图片描述

base中提供了替换否定词、同义词、消除stopwords这些操作，
data2text中
change_numeric：将数字转为文本描述；

change_names：更改name；
drop_phrases：drop掉一定量的word。

整个的代码做的是data generation，而且是perturb data的generation过程。
人工annotated data并没有给出。

git link:https://github.com/iitmnlp/EvalEval

3 metric实施

For BLEU , METEOR , ROUGE-L (Lin, 2004), CIDEr， Greedy Matching (GM)
(Rus and Lintean, 2012), and Vector Extrema (VE)
(Forgues and Pineau, 2014), we use the implementation provided by Sharma et al. (2017).

chrF++ (Popovic, 2017), TER (Snover et al., 2006),
BERTScore (Zhang et al., 2020), and BLEURT
(Sellam et al., 2020) we use the repository of Castro Ferreira et al. (2020).

For SMS (Clark et al.,2019), WMDo (Chow et al., 2019), and MoverScore (Zhao et al., 2019), we use the implementation provided by Fabbri et al. (2020)

代码中没有给出具体是怎么实施的。

总结

相似度metric的提出，有难度。
相似度metric好坏的评价，也有难度。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

YingJingh CSDN认证博客专家 CSDN认证企业博客

码龄5年

345: 原创

2万+: 周排名

8796: 总排名

26万+: 访问

: 等级

4161: 积分

2052: 粉丝

240: 获赞

49: 评论

706: 收藏

私信

关注

热门文章

分类专栏

最新评论

关系抽取：传统：UniRel: Unified Representation and Interaction for Joint Relational
snacksix: 你好，请问换成中文后效果如何
论文复现_1：Chinese NER Using Lattice LSTM
Fɪɴᴀʟ: YJ使用的词典可以分享一下吗
word中避免无引用源的方法
hx0520: 摸索了一下mac系统锁定域,按command+fn+f11
PDF相关的处理操作
haakaa: csdn这段确实好用
EMNLP-21-Enhanced Language Representation with Label Knowledge for Span Extraction-NER-融入label knowl
小阳不一样666666: 请问作者你复现成功了嘛？我按照论文设置超参数，但是对于ace2005效果只有0.84没有论文的0.86，这是我设置的情况：--task_type=ner --task_save_name=ner111 --data_dir=./data/ace2005 --data_name=ace2005 --model_name_or_path=D:/YangCode/data/bert-large-cased --model_name=SERS --output_dir=./outmodel --result_dir=./result --do_lower_case=False --first_label_file=./data/ace2005/processed/label_map.json --train_set=./data/ace2005/processed/train.json --dev_set=./data/ace2005/processed/dev.json --test_set=./data/ace2005/processed/test.json --label_str_file=./data/ace2005/processed/label_annotation.txt --overwrite_output_dir=True --exist_nested=True --do_train=True --is_chinese=False --val_step=20 --use_attn=True --seed=42 --max_seq_length=128 --dropout_rate=0.1 --learning_rate=3e-5 --task_layer_lr=2 --num_train_epochs=20能帮忙看看问题所在嘛？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

YingJingh 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。