相似度论文再回顾2：数据集相关知识

YJII

已于 2022-12-08 18:42:11 修改

阅读量832

点赞数

CC 4.0 BY-SA版权

分类专栏：相似度文章标签：人工智能

于 2022-12-05 10:38:58 首次发布

本文链接：https://blog.csdn.net/Hekena/article/details/128181467

本文回顾了文本相似度数据集的三种类型：是非类型、NLI类型和打分类型，并介绍了相关数据集的使用场景。同时，详细阐述了相似度评测在摘要生成、对话和问答任务中的应用。最后，概述了基于深度学习的任务处理流程，包括任务定义、训练数据集构建、模型构建与评估及模型部署。

文本相似度数据集常见类型

1、是非类型：这种是比较常见的类型，主要格式是“(句子1, 句子2, 是否相似)”，这里收集到的ATEC、BQ、LCQMC、PAWSX都是这种类型；

2、NLI类型：NLI的全称是Natrual Language Inference（自然语言推理），样本格式是“(句子1, 句子2, 蕴涵/中立/矛盾)”，可以视为更为精细一点的相似度数据集，当前可以找到的中文NLI数据集是英文版翻译过来的，链接位于CNSD；

3、打分类型：这算是最精细的相似度语料，格式为“(句子1, 句子2, 相似程度)”，这个相似程度一般是比0/1更细颗粒度的等级，目前可以找到的中文数据集是STS-B，也是由对应的英文数据集翻译过来的。
原文链接：https://spaces.ac.cn/archives/8541

相似度评测数据集

一般相似度问题出现在：摘要生成任务、对话任务、问答任务中。
摘要生成任务即在给定一段原始文本的基础上，生成预设摘要的过程。
对话任务即给定对话背景和对话上文的基础上，生成对话下文的过程。
问答任务即给定问题的基础上，生成预设答案的过程。
在相似度测评中，以摘要生成任务为例。评估一篇摘要的质量，是将机器生成的摘要和预设摘要进行比较的过程，这是一件比较困难的任务。对于一篇摘要而言，很难说有标准答案。不同于很多拥有客观评判标准的任务，摘要的评判一定程度上依赖主观判断。即使在摘要任务中，有关于语法正确性、语言流畅性、关键信息完整度等标准，摘要的评价还是如同”一千个人眼里有一千个哈姆雷特“一样，每个人对摘要的优劣都有自己的准绳。
尽管如此，为了测评方便，学者们公布了相关数据集，数据集格式如下：
其中，"source"为原始语句，即输入给机器的语句；“reference”为参考答案，即预设的标准答案；“system_output”为机器预测产生的答案；score是由人工判断生成的摘要相关方面（一致性、相关性等等）的打分值。

{
“doc_id”: “dm-test-8764fb95bfad8ee849274873a92fb8d6b400eee2”,
“system_id”: “M11”,
“source”: “Paul Merson has restarted his row with Andros Townsend after the Tottenham midfielder was brought on with only seven minutes remaining in his team 's 0-0 draw with Burnley on Sunday . 'Just been watching the game , did you miss the coach ? # RubberDub # 7minutes , ’ Merson put on Twitter . Merson initially angered Townsend for writing in his Sky Sports column that 'if Andros Townsend can get in ( t