【文本生成】评价指标:BARTScore

这篇论文出自2021 NeurIPS,通讯作者是卡耐基梅隆大学博士后刘鹏飞(prompt综述作者),论文全名:《BARTSCORE:
Evaluating Generated Text as Text Generation》

BARTSCORE采用无监督学习 对不同方面 (e.g. informativeness, fluency, or factuality) 进行评估。

在本文中,我们将生成文本的评估公式化为文本生成问题,通过从其他文本输入和输出生成 或 生成其他文本输入和输出的概率直接评估文本。这与底层的预训练任务更好地匹配,并且允许我们更充分地利用在预训练阶段学到的参数。

我们用预训练的序列到序列(seq2seq)模型解决建模问题,特别是BART,并设计了一个名为 BARTSCORE 的指标,它具有以下特征:(1)BARTSCORE 具有parameter- and data-efficient。在架构上除了预训练本身的参数外没有额外的参数,并且是一种不需要人工判断的无监督指标。 (2) BARTSCORE可以更好的支持从不同角度对生成的文本进行评价(例如,信息量、连贯性、事实性)通过调整条件的输入和输出文本生成问题。 (3) BARTSCORE 可以通过 (i) 提供文本提示来进一步增强评估任务更接近预训练任务,或 (ii) 通过微调更新底层模型基于下游生成任务(例如,文本摘要)的 BART。

在这里插入图片描述

其实就是计算预训练模型应用在某任务时的weighted log probability。

代码实例:

# To use the CNNDM version BARTScore
from bart_score import BARTScorer
bart_scorer = BARTScorer(device='cuda:0', checkpoint='facebook/bart-large-cnn')
bart_scorer.score(['This is interesting.'], ['This is fun.']) # generation scores from the first list of texts to the second list of texts.
# [out]
# [-2.510652780532837]

# To use our trained ParaBank version BARTScore
from bart_score import BARTScorer
bart_scorer = BARTScorer(device='cuda:0', checkpoint='facebook/bart-large-cnn')
bart_scorer.load(path='bart.pth')
bart_scorer.score(['This is interesting.'], ['This is fun.'])
# [out]
# [-2.336203098297119]

import torch
import torch.nn as nn
import traceback
from tra
  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值