ROUGE用于评判摘要质量
1. ROUGE-N
这里的N指的是N-gram,
即 将 机器生成的句子 与 标准句子 均进行N-gram拆分,
然后计算两者的共现(相同)的个数。
可从precision、recall两个角度进行评估:
2. ROUGE-L、ROUGE-W
ROUGE-L 计算最长公共子序列的重合情况,适合用于短摘要文本评估;
ROUGE-W 在L的基础上,考虑了连续LCS应当具有更大权重。
3. 更多见该链接
4. 代码实现
pip install rouge
from rouge import Rouge
rouge.get_scores(' '.join(list('这篇文章内容是新颖的')), ' '.join(list('文章内容新颖')))
会返回 ROUGE-N、L情况。
