java实现计算ROUGE-L指标（一）

本文链接：https://blog.csdn.net/qq_42969135/article/details/134197289

本文介绍了如何在AI问答系统中使用ROUGE-L评估方法，通过StanfordCoreNLP库进行分词处理，展示了如何计算Rouge-L指标，即使不依赖词性标注和词性还原。作者提供了代码实例，展示了如何在实际场景中应用这些技术来优化模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 是用于评估自动文摘或机器翻译的一种评估方法，其中的ROUGE-L指标是基于最长公共子序列（Longest Common Subsequence，LCS）来计算的

我们做AI问答系统，需要一些量化指标来作为优化人工智能大模型的指导标准，经过调查Rouge-L的特征测量是量化指标的手段之一。

为了采用更精确的分词算法、词性还原和停用词处理，我借助一些自然语言处理的库，以下是我引入的maven依赖：

<dependency>  
    <groupId>edu.stanford.nlp</groupId>  
    <artifactId>stanford-corenlp</artifactId>  
    <version>3.9.2</version>  
</dependency>  
<dependency>  
    <groupId>edu.stanford.nlp</groupId>  
    <artifactId>stanford-corenlp</artifactId>  
    <version>3.9.2</version>  
    <classifier>models</classifier>  
</dependency>  
<dependency>  
    <groupId>junit</groupId>  
    <artifactId>junit</artifactId>  
    <version>4.12</version>  
    <scope>test</scope>  
</dependency>

然后是我的具体代码实现，因为词性标注和词性还原需要借助本地模型实现，为了快速落地量化指标，我暂时不使用词性标注和词性还原。

(Recall-Oriented Understudy for Gisting Evaluation) 是用于评估自动文摘或机器翻译的一种评估方法，其中的ROUGE-L指标是基于最长公共子序列（Longest Common Subsequence，LCS）来计算的。它主要关注词序列的匹配程度，不依赖于词性标注和词性还原。
因此，即使不使用词性标注和词性还原，只要确保分词正确，你仍然可以得到有效的ROUGE-L指标。

以下是我的代码具体实现：

package com.xxx.zjtest.testtest.test;

import edu.stanford.nlp.ling.CoreAnnotations;
import edu.stanford.nlp.ling.CoreLabel;
import edu.stanford.nlp.pipeline.*;
import edu.stanford.nlp.util.CoreMap;

import java.util.*;


/**
 *
 * 不使用词性标注和词性还原直接计算ROUGE-L指标本身不会产生问题。
 *
 */
public class RougeLCalculator {
   

    private static final Set<String> STOP_WORDS = new HashSet<>(Arrays.asList("的", "了", "和", "是", "就", "都",