BLEU 比较候选译文和参考译文的n-gram的重合程度,unigram用于衡量单词翻译的准确度,高阶n-gram用于衡量句子翻译的流畅度。 BLEU需要计算1-gram,2-gram的精确率 惩罚因子:不希望模型生成短句。 对重复和短句有不好的表现 改进的多元精度 ROUGE-N 将BLEU的精确率优化为召回率,查看有多少参考译句中的n元组出现在输出中。 ROUGE-L:将BLEU的n-gram优化为公共子序列。