相似度论文再回顾2:数据集相关知识

文本相似度数据集常见类型

1、是非类型:这种是比较常见的类型,主要格式是“(句子1, 句子2, 是否相似)”,这里收集到的ATEC、BQ、LCQMC、PAWSX都是这种类型;

2、NLI类型:NLI的全称是Natrual Language Inference(自然语言推理),样本格式是“(句子1, 句子2, 蕴涵/中立/矛盾)”,可以视为更为精细一点的相似度数据集,当前可以找到的中文NLI数据集是英文版翻译过来的,链接位于CNSD;

3、打分类型:这算是最精细的相似度语料,格式为“(句子1, 句子2, 相似程度)”,这个相似程度一般是比0/1更细颗粒度的等级,目前可以找到的中文数据集是STS-B,也是由对应的英文数据集翻译过来的。
原文链接:https://spaces.ac.cn/archives/8541

相似度评测数据集

一般相似度问题出现在:摘要生成任务、对话任务、问答任务中。
摘要生成任务即在给定一段原始文本的基础上,生成预设摘要的过程。
对话任务即给定对话背景和对话上文的基础上,生成对话下文的过程。
问答任务即给定问题的基础上,生成预设答案的过程。
在相似度测评中,以摘要生成任务为例。评估一篇摘要的质量,是将机器生成的摘要和预设摘要进行比较的过程,这是一件比较困难的任务。对于一篇摘要而言,很难说有标准答案。不同于很多拥有客观评判标准的任务,摘要的评判一定程度上依赖主观判断。即使在摘要任务中,有关于语法正确性、语言流畅性、关键信息完整度等标准,摘要的评价还是如同”一千个人眼里有一千个哈姆雷特“一样,每个人对摘要的优劣都有自己的准绳。
尽管如此,为了测评方便,学者们公布了相关数据集,数据集格式如下:
其中,"source"为原始语句,即输入给机器的语句;“reference”为参考答案,即预设的标准答案;“system_output”为机器预测产生的答案;score是由人工判断生成的摘要相关方面(一致性、相关性等等)的打分值。

{
“doc_id”: “dm-test-8764fb95bfad8ee849274873a92fb8d6b400eee2”,
“system_id”: “M11”,
“source”: “Paul Merson has restarted his row with Andros Townsend after the Tottenham midfielder was brought on with only seven minutes remaining in his team 's 0-0 draw with Burnley on Sunday . 'Just been watching the game , did you miss the coac

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值