文本摘要评价指标 - ROUGE 附代码实现

Xu_Wave

已于 2022-04-18 00:15:04 修改

阅读量2.3k

点赞数 1

分类专栏： NLP(包含深度学习) 文章标签：自然语言处理文本摘要评价指标

于 2021-12-27 14:47:48 首次发布

本文链接：https://blog.csdn.net/qq_22795223/article/details/122171622

版权

NLP(包含深度学习) 专栏收录该内容

55 篇文章

订阅专栏

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）是一种广泛使用的自动摘要评估工具，主要通过计算机器生成摘要与原文本中N-gram的共现来评估摘要的质量。它包括ROUGE-N、ROUGE-L和ROUGE-W等指标，其中N-gram关注匹配的片段数量，ROUGE-L考虑最长公共子序列，而ROUGE-W则强调连续片段的匹配。该方法对于信息抽取、文本生成和机器翻译等领域具有重要意义。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ROUGE用于评判摘要质量

1. ROUGE-N

在这里插入图片描述
这里的N指的是N-gram，
即将机器生成的句子与标准句子均进行N-gram拆分，
然后计算两者的共现（相同）的个数。

可从precision、recall两个角度进行评估：
在这里插入图片描述

2. ROUGE-L、ROUGE-W

ROUGE-L 计算最长公共子序列的重合情况，适合用于短摘要文本评估；
ROUGE-W 在L的基础上，考虑了连续LCS应当具有更大权重。

3. 更多见该链接

4. 代码实现

pip install rouge

from rouge import Rouge
rouge.get_scores(' '.join(list('这篇文章内容是新颖的')), ' '.join(list('文章内容新颖')))

会返回 ROUGE-N、L情况。

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Xu_Wave

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

LLMs：文本生成任务常用的评估指标(BLEU/ROUGE/BERTScore等)的简介(核心原理+实现思路+实现代码)、使用方法、案例应用之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

01-14

996

LLMs：文本生成任务常用的评估指标(BLEU/ROUGE/BERTScore等)的简介(核心原理+实现思路+实现代码)、使用方法、案例应用之详细攻略目录文本生成任务常用的评估指标(BLEU/ROUGE等)的简介文本生成任务常用的评估指标(BLEU/ROUGE等)的使用方法文本生成任务常用的评估指标(BLEU/ROUGE等)的案例应用文本生成任务常用的评估指标(BLEU/ROUGE等)的简介在文本生成任务中，评估生成文本的质量是一个核心问题。常用的评估指标包括 BL

Bert基础(二十一)--Bert实战：文本摘要

Andy_shenzl的博客

04-30

1983

文本摘要（Text Summarization），作为自然语言处理（NLP）领域的一个分支，其核心目标是从长篇文档中提取关键信息，并生成简短的摘要，以提供对原始内容的高度概括。这一过程不仅有助于用户迅速把握信息的核心，而且对于有效组织和归纳大量的文本数据至关重要。文本摘要的任务可以根据不同的输入和输出进行分类。首先，根据输入文档的数量，可以将摘要任务分为单文档摘要和多文档摘要。单文档摘要专注于处理单个文档，而多文档摘要则需要整合多个相关文档的信息。

参与评论您还未登录，请先登录后发表或查看评论

文本生成：自动摘要评价指标 Rouge

SunnyGJing’s blog

10-25

1万+

Rouge的全名是Recall-Oriented Understudy for Gisting Evaluation，单看名字就会发现Rouge是由召回率演变而来的指标，用于衡量模型生成摘要文本的质量。我们常说的Rouge其实是一组评价指标的统称，包含Rouge-N, Rouge-L, Rouge-W, Rouge-S四个指标，它们的计算方式和适用场景有所不同。本文首先介绍了它们各自的适用场景和计算方式，并给出了简洁可用的代码示例，最后写下了一点个人思考。

评估大模型（LLM）摘要生成能力：方法、挑战与策略

最新发布

llm_way的博客

02-08

1003

随着 LLMs 在摘要生成任务中的应用日益广泛，评估其生成摘要的质量至关重要。优质的摘要能够帮助用户迅速把握文本核心内容，节省大量阅读时间。在学术研究中，研究者可以通过准确的文献摘要快速筛选相关资料；在商业领域，决策者能够依据精准的行业报告摘要做出明智的决策。相反，低质量的摘要可能会误导用户，导致信息获取错误，甚至影响决策的准确性。准确评估 LLM 摘要（RAG(Retrieval-Augmented Generation)评测：评估LLM中的幻觉现象。

python学习-114-自动文本摘要Rouge评价体系实现(很简单)

流花飞羽的专栏

04-22

1万+

前言：最近在研究短文本的自动摘要生成，在试验测试方面国内外研究学者普遍使用Rouge评价体系如 Rouge-1、Rouge-2、Rouge-L 今天我们就讲一下他的python实现。你去百度搜索资料看到各种配置各种安装啊如下：特别麻烦其实不用这么麻烦如果你只是单纯的使用Rouge-1、Rouge-2、Rouge-L这三个评价体系的话实现很简单步骤1：使用pip安装r...

文本摘要生成的评估指标

一位在路上的工程师的博客

01-25

1521

这里的N就是指的n-gram，n=1时叫ROUGE-1（也叫Unigrams）；n=2时，叫ROUGE-2（也叫Bigrams）；n=3时，叫ROUGE-3（Trigrams）。

【NLP】文本摘要评价指标：ROUGE-N

zkq_1986的博客

10-10

6457

文本摘要评价指标ROUGE-N的公式如下：简单地说，参考的摘要的n-gram类似于待检索项，生成的摘要的n-gram类似于检索出的项，然后计算下召回率。

Python自动文本摘要Rouge-N的实现

Herbe_chanceux的博客

10-11

2355

本文只适用于简单的使用Rouge-1, Rouge-2,Rouge-L这三个评价体系1.使用pip进行安装rouge2.计算Rouge的值关于理论部分，可以参考这篇博客，写的很详细。 1.使用pip进行安装rouge $ pip install rouge 2.计算Rouge的值 def rouge(a,b): rouge = Rouge() rouge_score = rouge.get_scores(a,b, avg=True) # a和b里面包含多个句子的时候用 rou

python extract_convert.py对应代码解读抽取式提取+生成式提取摘要代码解读------摘要代码解读1

小姑仔的博客

10-19

1219

pytorch动态调整学习率抽取式生成的代码convert数据转化的过程进入extract_convert.py中的extract_flow函数内容进入extract_convert.py中的extract_matching函数内容snippets.py之中查看compute_metrics函数的内容snippets.py之中查看compute_rouge函数内容抽取式生成的代码最近拜读了苏大佬抽取式生成的代码，收获颇丰，这里解析一下对应内容对应的github项目地址： https://github.

word2vecjava源码-W2V_TextRank:文本自动摘要算法：用Word2Vec改进的TextRank算法

06-05

评价指标 ROUGE1&2 ROUGE SU4 R&F 使用说明可以直接在命令行中运行编译好的jar包，jar包及训练好的Word2Vec模型可以在 ,密码为：7qvd java -jar W2V_TextRank.jar <参数> 参数说明参数说明 -m 指定摘要算法：...

【NLG】(六)文本生成评价指标—— ROUGE原理及代码示例

凝眸伏笔的博客

01-10

1万+

前奏：【NLG】(一)文本生成评价指标——BLEU原理及代码示例【NLG】(二)文本生成评价指标—— METEOR原理及代码示例【NLG】(三)文本生成评价指标—— ENTROPY原理及代码示例【NLG】(四)文本生成评价指标—— diversity原理及代码示例【NLG】(五)文本生成评价指标—— kl_divergence原理及代码示例 1.ROUGE原理 2.优缺点 3.如何算ROUGE ...

ROUGE-2.0：ROUGE自动摘要评估工具包。支持ROUGE- [N，L，S，SU]，不同语言的词干和停用词，unicode文本评估，CSV输出

02-03

ROUGE 2.0 ROUGE 2.0是用于自动汇总任务的易于使用的评估工具包。它使用度量标准系统，该系统通过将自动生成的摘要或翻译与一组参考摘要（通常是人为生成的）进行比较来工作。 ROUGE是计算自动生成的摘要的有效性的标准方法之一。要了解ROUGE的工作原理，请。产品特点最新版本的ROUGE 2.0支持以下功能：评估ROUGE-N（字母，二元组，三元组等）评估ROUGE-L（总水平LCS）对ROUGE-S和ROUGE-SU的评估（带有单字的跳字和跳字）一次性评估多个ROUGE指标不同语言的词干使用可自定义的停用词删除停用词 unicode文本的评估（例如波斯

rouge:ROUGE指标的完整Python实现（不是包装器）

05-28

胭脂完整的Python库，用于ROUGE指标。免责声明此实现独立于“官方” ROUGE脚本（又名ROUGE-155 ）。结果可能是slighlty不同，看。快速开始克隆并安装 git clone https://github.com/pltrdy/rouge cd rouge python setup.py install # or pip install -U . 或从点子： pip install rouge 从外壳使用它（JSON输出） $rouge -h usage: rouge [-h] [-f] [-a] hypothesis reference Rouge Metric Calculator positional arguments: hypothesis Text of file path reference Text or file

rouge 摘要评估_ROUGE简介，以及如何使用它评估摘要

cumian8165的博客

07-12

1993

rouge 摘要评估by Kavita Ganesan 通过Kavita Ganesan ROUGE简介，以及如何使用它评估摘要 (An intro to ROUGE, and how to use it to evaluate summaries) ROUGE stands for Recall-Oriented Understudy for Gisting Evaluation. It i...

ROUGE评测标准

weixin_41332009的博客

12-17

4487

简介 ROUGE 指标的全称是 (Recall-Oriented Understudy for Gisting Evaluation)，主要是基于召回率 (recall) 的。ROUGE 是一种常用的机器翻译和文章摘要评价指标。 ROUGE-N ROUGE-N 主要统计 N-gram 上的召回率公式的分母是统计在参考译文中 N-gram 的个数，而分子是统计参考译文与机器译文共有的 N-gram 个数。（所以是recall。总共有若干个阳性样本，看你的方法能够找出多少个阳性的）例如: 机器译文: a

中文自动文本摘要生成指标计算，Rouge/Bleu/BertScore/QA代码实现