【NLP】如何评价一个摘要是合适的

最新推荐文章于 2024-07-18 14:26:36 发布

半九拾

最新推荐文章于 2024-07-18 14:26:36 发布

阅读量3.6k

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/b285795298/article/details/102479903

版权

NLP 专栏收录该内容

8 篇文章

订阅专栏

本文探讨了摘要质量评估的四大维度：冗余度、相关性、信息性和重要性，并提出了一种理论模型，用于整合这些维度，以生成既相关又多样化，且能提供新信息的高质量摘要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

根据论文A Simple Theoretical Model of Importance for Summarization 总结

判断一个摘要的好坏，主要从一下四个维度考虑：

冗余度(redundancy)，

冗余度

实际生产环境中，使用以相似度为目标建模的方法配以一些人工规则通常能够符合需求。然而，当处理较长的文本时，只以相关性为目标做摘要会遇到一个很明显的问题：模型会倾向于生成一堆相似度很高的摘要句，而丢失了一些小众主题的信息。这些信息虽然在文档中的比例不高，但是不代表它不重要。尤其是金融领域中的研报或者财报等类型的文本，有些重要信息并不会在文本中出现很多次。因此，需要考虑提取尽可能多样化的摘要内容。

历史上，也有一些学者对摘要的冗余度进行研究的例子。下面分享一些我之前在工作中调研实践过的方法。

MMR，全称Maximal Marginal Relevance。将相关性和冗余度放在一个目标函数中，使用贪心方法优化目标函数。每次挑选摘要时，除了建模其相关性分数外，还要扣除其与当前已有的摘要集合的冗余度分数，最后挑选综合分数最高的那个加入到摘要集合中。这个方法简单高效，且是无监督的方法，在生产环境中，如果缺少高质量的标注数据，可以使用这个方法。
利用submodular函数原理来建模冗余度。关于submodular函数的原理，这里就不展开了，有兴趣的同学可以自行谷歌（实际上即用贪心算法找最优子集）。它在建模冗余度时，不是惩罚冗余性，而是奖励多样性。当挑选一个与摘要集合不太相似的句子时会奖励一个较高分数，但是后续如果有与之类似的句子被挑选了，则这个奖励会呈非线性递减，借鉴了经济学中的边际效益思想。之所以奖励多样性，是为了与相关性分数的变化关联一致，维持submodular函数的单调性质。

论文中，对冗余度的建模方法简单到不可思议。它认为，摘要包含的信息量表明了其本身的多样性程度。因此直接使用信息论中的熵来度量其信息量，即冗余程度。简化后的公式如下： $Red(S) = -H(S)$ 。

注意到等式右边有一个负号，表示熵越大，文本不确定性越高，信息量也越大，那么其冗余度也越小。

informativeness

对于这个单词，我之所以没给中文翻译是因为我还不知道如何确切翻译它，如果翻译成信息量，我觉得还不是很够味。根据论文的叙述，这个概念假设当前有一个背景知识库K，此时需要对文档D进行摘要抽取，那么候选摘要S对于K来说，应当新增尽可能多的信息，才能让读者在阅读摘要后获取最多的新信息。如果摘要句子说的都是用户早就知道的事情，那么阅读摘要没有给用户产生任何价值。

相关性和冗余度只是在当前处理文档的范围内进行建模，但是人类的语言是有庞大的常识库的。只使用相关性和冗余度有其局限性，因此才引入了informativeness的概念。那么如何度量这个概念呢？论文给出的方法也很简单，informativeness的目标是让S尽可能与K不同，同时K也是由语义单元组成的文本语料集合，因此也可以用 $P_k$ 来表示K的概率分布，那么剩下的工作就很明显了，与相关性类似，使用交叉熵来衡量两个概率分布的差异性。简化后的公式如下： $Inf(S,K)=CE(S,K)$

注意等式右边没有负号，表示S和K的差异越大，我从摘要中获取的新的信息越多，则informativeness就应当越大。

其实，informativeness的内涵与tfidf的思想比较像。tfidf找的是词频较大，但是又不是每篇文章都包含的词。最典型的实例就是会过滤掉停止词，这些词的信息量是很少的。

有的同学会问了，这个K从哪里来呢？有条件的，可以通过构建大规模的知识库语料，如训练BERT使用的多领域的文本语料；没有条件的，可以直接将需要提取摘要的所有文档集作为K。

重要性

importance是论文提出的一个新的概念。首先要明确一点，它针对的是语义单元，目标是计算每个语义单元的重要性分数，在构造摘要时，根据每个语义单元的评分来丢弃不需要的语义单元。

论文中，将importance作为相关性和informativeness的整合产物。既要摘要S保留足够多的D的信息，又要尽量产生与K不同的新的信息。因此，其给出了一个建模函数的模板 $f(P_D(\omega _i),P_K (\omega_i))$ 表示一个语义单元的重要性分数，它必须满足如下条件：

在文档中的不同语义单元 $\omega _i,\omega_j,i\neq j$ ，如果两个单元的probability在D中的概率分布相同。在K中的概率分布不同，且 $P_K (\omega _i ) >P_K (\omega_j )$ ，则应有 $f(P_D (\omega _i ),P_K (\omega_i ))<f(P_D (\omega_j ),P_K (\omega_j ))$ 。在保持相关性一致时，两个语义单元的重要性分数应当与informativeness呈负相关关系。
在文档中的不同语义单元 $\omega _i,\omega_j,i\neq j$ ，如果两个单元的probability在K中的概率分布相同。在D中的概率分布不同，且 $P_D (\omega _i ) >P_D (\omega_j )$ ，则应有 $f(P_D (\omega _i ),P_K (\omega_i ))>f(P_D (\omega_j ),P_K (\omega_j ))$ 。在保持informativeness一致时，两个语义单元的重要性分数应当与相关性呈正相关关系。
这个度量函数应当保持信息论中度量方法的加性性质，因此需要满足： $I(f(P_D (\omega _i ),P_K (\omega_i )))\equiv \alpha I(P_D (\omega_i ))+\beta I(P_K (\omega_i ))$ . I表示香农理论中的信息度量方法。
保证f得到的结果是一个有效的概率分布，即 $\sum f=1$ 。这里，我个人认为之所以要保证其是一个有效的概率分布，是因为要将所有语义单元的importance分数都放在同一个维度去对比。

为了同时满足上面的四个条件，论文给出一个函数实例，如下：

其中，C is the normalizing constant，。而则是控制相关性和informativeness在计算importance时的权重。根据实际情况，可调整两个权重，看重哪个就调高哪个。在真实的模型设计和训练时，可以将其作为超参数，使用验证集来调参。

论文最后还附上了上述公式满足四个基本条件的证明，证明很简单，只要函数代入推导就可以，另外关注一点，就是将 -β替代了 β 。因为减法在广义上也是一种加法。

如何整合四个维度？

通过上面几节的论述，得到了四个不同的维度，来勾勒出一个好的摘要的轮廓。但是，最终我们是要为每个摘要句进行评分，因此需要将所有摘要建模维度进行统一，因此需要设计一个方法将上述四个维度进行整合。

整合相关性和冗余度

我们先关注一下相关性和冗余度两个维度。之后我们会由此引申到整合四个维度。

还记得上章节得到相关性和冗余度的两个公式吗？

$REL(S,D) = -CE(S,D)$

$Red(S) = -H(S)$

将上述两个公式组合一下，就能得到另外一个衡量两个概率分布差异的方法：KL散度。

$KL(S||D)=CE(S,D)-H(S) \\-KL(S||D) = Rel(S||D)-Red(S)$

其实，深度学习中经常使用的交叉熵损失与KL散度的关系非常密切，因为深度学习中的训练数据要求是独立同分布的，因此对于深度学习的数据而言，H(X)是常量，每条训练数据的信息量是确定的，因此做优化时通常会不考虑H(x)，只看CE。而这里情况就不同，我们需要关注摘要的信息量。

KL散度很好的整合了相关性和冗余度。当S与D的KL散度很小的时候，说明摘要拟合D的效果非常好，此时相关性和冗余度的综合分数就比较高，而对应的，Rel就需要取较大的值，而Red需要取较小的值。这个与之前的论述是一致的。

整合所有维度

首先，对于importance来说，它整合了相关性和informativeness两个维度，它得到的理想摘要应当尽可能得拟合概率分布 $P_{\frac{D}{K}}$ 。这里仍然使用交叉熵来度量分布的差异。因此有：

$Importance(S,D/K)=-CE(S,D/K)$

注意等式右边的负号，表示两个分布越接近，交叉熵越小，对应的摘要句的importance分数越高。

然后，将冗余度添加进来，添加方法参考上一小节整合相关性和冗余度的方式，使用KL散度来表示最终的度量函数：

$\theta _I (S,D,K)=-CE(S,\frac{D}{K})+H(S) \\=Importance(S,\frac{D}{K})-H(S) \\=-KL(S||\frac{D}{K})$

这里，都对应各自的概率分布。

最终得到的摘要句要最大化我们的，也就是要最小化我们的

另外，论文额外备注了一个容易忽视的问题，就是作为求解目标的概率分布 ,它本身做一个概率值，它的量纲变化范围比较狭窄。例如，会出现很多值很接近的句子，此时就不太好选择摘要句。因此可以使用通过对概率分布取熵的方法，扩大其量纲，而 log2 函数能够很好得完成这个任务。

Potential Information

论文在理论部分的最后还提到了一个概念叫potential information。这个概念的目标主要是为建模informativeness目标提供上界。具体来说，potential information 建模的是D与K的分布差异。简单来说就是在背景知识K的条件下，我们能从D获取的新的信息量。其同样使用交叉熵来建模两个分布的差异，公式如下： $PI_K (D)=CE(D,K)$