1. ROUGE
ROUGE是机器自动摘要的评价指标,有很多个优化版本,核心思想是通过统计模型生成的摘要句子和标准摘要句子相同的n-gram比率来评价摘要生成质量。
1.1 ROUGE N \text{ROUGE}_N ROUGEN
ROUGE N = Count ( 共现的字 / 词 ) Count ( 摘要 ) \text{ROUGE}_{N} = \frac{\text{Count}\lparen 共现的字/词\rparen}{\text{Count}\lparen 摘要\rparen} ROUGEN=Count(摘要)Count(共现的字/词)
1.2 ROUGE L \text{ROUGE}_L ROUGEL
ROUGE L \text{ROUGE}_L ROUGEL考虑 最长子序列 (LCS) 的长度与句子长度的比例
Precision LCS = LCS ( S , S ^ ) Length ( S ^ ) \text{Precision}_{\text{LCS}} = \frac{\text{LCS} \lparen S, \hat{S} \rparen}{\text{Length}(\hat{S})} PrecisionLCS=Length(S^)LCS(S,S^)
Recall LCS = LCS ( S , S ^ ) Length ( S ) \text{Recall}_{\text{LCS}} = \frac{\text{LCS} \lparen S, \hat{S} \rparen}{\text{Length}(S)} RecallLCS=Length(S)LCS(S,S^)
F LCS = ( 1 + β 2 ) Recall LCS Precision LCS Recall LCS + β 2 Precision LCS \text{F}_{\text{LCS}} = \frac{\lparen 1 + \beta^{2}\rparen \text{Recall}_{\text{LCS}}\text{Precision}_{\text{LCS}}}{\text{Recall}_{\text{LCS}} + \beta^{2}\text{Precision}_{\text{LCS}}} FLCS=RecallLCS+β2PrecisionLCS(1+β2)RecallLCSPrecisionLCS
优点:能够衡量句子级别的顺序,不需要制定n-gram的长度
缺点:只考虑了最长子序列的长度,忽略了其他子序列的长度占句子长度的比例