【文本生成】评价指标：事实一致性Evaluating the Factual Consistency of Abstractive Text Summarization

最新推荐文章于 2025-02-26 21:23:11 发布

尽量不躺平的kayla

最新推荐文章于 2025-02-26 21:23:11 发布

阅读量2.3k

点赞数

分类专栏：文本生成文章标签：深度学习自然语言处理 bert

本文链接：https://blog.csdn.net/skying159/article/details/121684539

版权

论文：2019年《Evaluating the Factual Consistency of Abstractive Text Summarization》
https://arxiv.org/pdf/1910.12840.pdf

motivation

经研究高达30%的摘要是和原文事实不符的，到目前为止也没有非常好的办法去解决摘要与原文的事实一致性。

introduction

与事实一致的问题与两个问题最为接近：一个是natural language inference（NLI），一个是fact checking。

当前的NLI数据集一般都是短的单句匹配，事实一致性却是要与全文去匹配。

fact checking是事实与知识匹配，而事实一致性是原文提供的信息和原文作匹配，并不保证信息是否一致。

methods

training data

本文用了一种弱监督的方法构造训练集，通过构造的sentence-document pair，可以判断是否与事实一致。

训练集由采样原文句子获得。

paraphrasing

采用回译方法，用Google Cloud Translation API，默认语义不变。
entity and number swapping

用NER识别后，随机替换。比如人名就替换成识别到的其他人名。用的是SpaCy NER t

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

尽量不躺平的kayla

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

LLMs，真有我们想象的那么糟糕吗？——解密标签错误与模型性能的秘密

步子哥的博客

10-25

683

正如图1所示，LLMs可以有效地标记出数据集中的错误标签，并通过纠正这些错误标签，显著提升模型的表现。然而，随着模型规模的飞速增长，我们的“食材”也在发生变化。我们的目标是通过LLMs的标注来发现数据集中的错误标签，并与专家的重新标注进行比较。通过让多个LLMs组成**“合唱团”**，我们可以发现那些标错了的样本，并通过修正这些错误，极大提升模型的性能。因此，LLMs不仅仅是NLP模型的工具，它们可能是未来数据集标注的**“终极裁判”**，帮助我们发现并纠正数据中的错误，从而推动整个领域的进一步发展。

文本生成任务常见评估指标

linchuhai的博客

05-16

9903

1. 引言在传统的文本生成任务中，对于模型生成的文本，往往很难评估他们的质量，一般会采用人工投票的形式，来比较生成的文本和真实的参考文本之间的优劣或接近程度，因此，其评估过程是非常昂贵和耗时的，并且该过程没法重复，当研究人员对模型进行更新之后，又得重新雇人进行评估，或者需要对模型进行部署并实时监控时，也很难实施，因此，文本生成任务需要一个可被计算的数值指标，来衡量模型生成的文本与参考文本...

参与评论您还未登录，请先登录后发表或查看评论

让AI用事实说话，千言第二届面向事实一致性的生成评测比赛启动

PaddlePaddle

01-10

207

火遍全网的ChatGPT让人惊叹全球热点技术AIGC（AI Generated Content，人工智能内容生成）的迅速发展，它似乎能够理解和产生复杂的想法，可以回复各种问题，进行有逻辑的对话，可以创作剧情完整的推理小说，甚至能够编写代码，回复丝滑流畅，效果超出预期。但ChatGPT目前仍然无法胜任要求事实准确性的任务，比如新闻报道、财务报告等。由于神经网络生成模型特别是预训练语言模型的迅速发展，...

内容算法解读：提高内容摘要与原文的一致性（Faithfulness）

liveshow021_jxb的博客

03-04

1335

受益于预训练语言模型的发展，应用神经网络模型提取内容摘要的技术也获得了长足进步。但目前还存在一个未被很好解决的问题：神经网络模型提取的摘要不能如实反映原文档的中心思想，没有做到忠实（notfaithful）。可能的原因有两个，1）摘要模型未能理解或者抓取输入文档内容的要点；2）摘要模型过度依赖语言模型，产生了流畅但不达意的词语。本文提出了一个忠实度增强摘要模型，克服上述两个问题，并尽可能贴切地表达出原文的中心思想。

《TRUE: Re-evaluating Factual Consistency Evaluation》论文阅读

最新发布

Barbie_WZC的博客

02-26

1028

基于文本的生成系统常生成包含事实不一致的文本，限制了其实际应用。自动事实一致性评估可通过加速评估周期、过滤不一致输出和增强训练数据来缓解这一问题。尽管相关研究日益增多，但这些指标通常在单一任务或数据集上孤立开发和评估，阻碍了其广泛应用。此外，以往的元评估协议侧重于系统级与人工标注的相关性，导致指标在单例层面的准确性尚不明确。本文提出TRUE，通过对现有多任务文本的标准化整合与人工标注，全面评估事实一致性指标。标准化使元评估协议更具可操作性和可解释性，提供更清晰的质量度量。

相似度系列-7：单维度：Evaluating the Factual Consistency of Abstractive Text Summarization

Hekena的博客

11-15

538

事实一致性检查。

gitblog_00270的博客

12-28

245

【工大SCIR笔记】事实感知的生成式文本摘要

zenRRan的博客

04-21

1053

作者：哈工大SCIR 黄毅翀序言抽取式的文本摘要直接从原文中摘取完整的句子作为文章的摘要，如同按部就班的老实人，令人心安；生成式的文本摘要可以产生原文中没有的单词和短语，好比一位逍遥的江...

[摘要生成]Boosting Factual Correctness of Abstractive Summarization with Knowledge Graph

SARACH_WONG的博客

01-14

783

2020 paper: https://arxiv.org/pdf/2003.08612.pdf 切入点：factual correctness 提出两个模型： Fact-Aware Summarization model, FASUM：which extracts factual relations from the article to build a knowledge graph and integrates it into the neural decoding process. a Factu

EMNLP2020中事件抽取/关系抽取/NER/少样本/MRC/摘要论文分类整理

carrie_0307的博客

10-15

4152

事件抽取主会 A Method for Building a Commonsense Inference Dataset based on Basic Events Affective Event Classification with Discourse-enhanced Self-training Biomedical Event Extraction as Sequence Labeling Connecting the Dots: Event Graph Schema Induct

2020年NLP所有领域最新、经典、顶会、必读论文

lqfarmer的博客

05-23

5191

本资源整理了近几年，自然语言处理领域各大AI相关的顶会中，一些经典、最新、必读的论文，涉及NLP领域相关的，Bert模型、Transformer模型、迁移学习、文本摘要、情感分析、问答、机器翻译、文本生成、质量评估、纠错(多任务、masking策略等。)、Probe、多语言、领域相关、多模态、模型压缩、谓词填充、Analysis、分词解析NER、代词指代消解、词义消歧、情感分析、关系抽取、知识库、文本分类等，几乎所有领域。资源整理自网络，源地址：https://github.com/...

文本生成人工评价指标及一致性校验方法总结（附代码实现）

Meiling_up

07-18

4678

本文对文本生成人工评价指标中场景设置及评估结果的一致性校验方法进行总结，并给出 Cohen's Kappa 与 Fleiss' Kappa 的代码实现。

（笔记）数据仓库工具箱：维度建模的完全指南--一致性事实表

07-31

2098

维度保持一致后，事实就可以保存在各个数据集市中。虽然在物理上是独立的，但在逻辑上由一致性维度使所有的数据集市是联系在一起，随时可以进行交叉探察等操作，也就组成了数据仓库。

Python_文本分析_困惑度计算和一致性检验

热门推荐

越吃越胖的博客

06-02

1万+

在做LDA的过程中比较比较难的问题就是主题数的确定，下面介绍困惑度、一致性这两种方法的实现。其中的一些LDA的参数需要结合自己的实际进行设定直接计算出的log_perplexity是负值，是困惑度经过对数去相反数得到的。 import csv import datetime import re import pandas as pd import numpy as np import jieba import matplotlib.pyplot as plt import jieba.posseg

文本检测数据集整理汇总

u012135425的博客

02-22

3468

中文 1、ctw 腾讯和清华大学合作标注的数据集 https://ctwdataset.github.io/ 2、rctw 2017年ICARD比赛的数据集 RCTW-17 is a competition on reading Chinese Text in images. For training and testing, we provide a large-sc...

新闻文本数据集_一文看懂虚假新闻检测（附数据集 & 论文推荐）

weixin_39859055的博客

12-10

3311

作者丨孙子荀单位丨腾讯科技高级研究员研究方向丨多模态内容质量本人过去几年一直从事内容质量方面的算法工作，近期出于兴趣对假新闻这个问题做了一些调研，简单总结一下提供读者参考。在某种程度上假新闻的是一个微观领域问题，它和谣言分类，事实判断，标题党检测，垃圾内容挖掘等都比较类似，在宏观上说都属于内容质量的领域，所以很多方法其实是通用的框架。本文主要简单介绍了我们的做法和几篇具有典型代表的假新闻论文，从不...

抽象文本摘要中的事实不一致问题：一项调查

liuyingshudian的博客

11-06

1527

抽象摘要中的事实不一致问题

论文解读：Factuality Enhanced Language Models for Open-Ended Text Generation

夏栀的博客

07-29

2202

而往往为了降低GPU显存，通常采用chunk机制，导致很多文档被分割化，这些被分割后的文档可能只有一些代词，这会导致信息“碎片化”，并导致出现在具有相似上下文的独立文档中的实体的错误关联。模型的生成是逐个字符生成的，因此如果模型在没有任何prefix的前提下生成文本时，生成的最开始阶段的一些词是不会存在幻觉的，而随着不断地生成过程中，后面生成的词会促使整个文本产生幻觉。目前一个很大的挑战是如何评估模型的事实性，尤其是开放文本生成领域内，其需要涉及到定位真实知识在无数个世界知识内的位置。

GANprintR: Improved Fakes and Evaluation of the State of the Art in Face Manipulation Detection

03-28

GANprintR is a recent research paper that focuses on improving the quality of fake images generated by Generative Adversarial Networks (GANs) and evaluating the state of the art in face manipulation detection. The authors propose a new architecture for GANs called GANprintR that incorporates a perceptual loss function and a fine-tuning step to enhance the quality of generated images. In addition to improving the quality of fake images, the authors also evaluate the effectiveness of various face manipulation detection methods. They use a dataset of real and manipulated face images to test the performance of these methods and find that most state-of-the-art detection methods are not effective against GAN-generated images. The authors conclude that GANprintR can produce high-quality fake images that are difficult to detect using current face manipulation detection methods. This has important implications for the use of fake images in various applications, including social media, advertising, and political propaganda. The authors suggest that future research should focus on developing more robust detection methods to prevent the spread of fake images.