TL;DR: 本研究提出了一种新的语法纠错系统评估指标,能够根据评估句子类型不同,动态调整子指标的权重,确保评估分数更加符合人类反馈。
论文标题:
DSGram: Dynamic Weighting Sub-Metrics for Grammatical Error Correction in the Era of Large Language Models
作者单位:
北京大学(万小军团队)、北京交通大学
论文链接:
https://arxiv.org/abs/2412.12832
代码链接:
https://github.com/jxtse/GEC-Metrics-DSGram
Highlights
-
提出了 DSGram 这一创新的评估框架,它通过动态调整子指标的权重,提供了更为精准的评估方法。
-
整合了语义一致性、编辑水平和流畅性三个关键评价维度,确保评估结果更加符合人类反馈。
-
开发了两个新数据集,DSGram-Eval 和 DSGram-LLMs,用于模拟人类评分来验证和微调算法。
背景简介
语法纠错(Grammatical Error Correction, GEC)模型旨在自动纠正自然语言文本中的语法错误,提升书面内容的质量和准确性。传统上,GEC 模型的评估运用了多种指标,这些指标可以分为需要参考文本的(reference-based)和不需要参考文本的(reference-free)两类。
基于参考的评估指标,如 BLEU、ERRANT 和 M²,通过将模型生成的文本与正确的参考文本进行比较来评估语法纠正的准确性,并且在这一领域得到了广泛的应用。
尽管这些指标很有用,但它们存在固有的局限性。例如,黄金参考答案(golden reference)可能无法涵盖所有可能的纠正方法,而且现有的自动评估指标与人类判断的一致性通常较弱。
此外,基于 LLM 的 GEC 模型可能会过度纠正句子,导致传统指标无法捕捉到的不必要编辑。相反,无参考评估指标,如困惑度、GLEU 和 SOME,直接评估生成文本的质量,在没有正确参考文本,或者单个(或几个)参考文本不足时是有益的。
尽管现有的无参考评估指标,如 SOME,提供了一个分析基础,但它们不再完全涵盖 LLM 时代 GEC 评估的范围。有必要根据 LLM 时代的新需求设计新的评价指标。
图 2 展示了代表性 GEC 系统的运行示例和当前评估指标的局限性。本研究旨在通过引入一个新的 GEC 模型评估框架 DSGram 来克服这些局限性。DSGram 整合了语义连贯性、编辑水平和流畅性,并确定这些标准的适当权重。通过根据评估场景的上下文调整这些权重,可以开发出一种更细致、更具情境敏感性的评估方法。
研究方法
2.1 动态权重的评价方法
动态权重评价方法,即 DSGram 框架中的核心机制,是一种根据评估场景的上下文动态调整不同评估方面权重的方法。这种方法旨在更准确地反映人类评估者在评分时的直觉过程,并提高评估结果的可靠性和一致性。
DSGram 框架结合了层次分析法(AHP),这是一种决策框架,通过成对比较将复杂决策分解为更简单、更易于管理的元素。
传统的 AHP 将主观判断综合成客观的优先级,并根据专家对重要性的评估适当地加权。但专家评估存在成本高、耗时长的问题,本文将 AHP 与大语言模型结合,让大语言模型来判断各个子指标之间的相对重要性,解决了原有专家评估的局限性,大大提高了 AHP 的可用范围。
DSGram 框架使用大语言模型(如 GPT-4 和 LLaMA3)来生成这些子指标的动态权重,主要步骤如下:
-
**构建判断矩阵:**对于每对子指标,使用大语言模型构建一个成对比较矩阵 A = (a_ij),其中 a_ij 表示标准 i 相对于标准 j 的重要性。这个矩阵是通过特定的Prompt来生成的,要求模型评估一个子指标相对于另一个子指标的重要性。
-
**一致性检查:**计算判断矩阵的一致性指数(CI)和一致性比率(CR),以检查成对比较的一致性。如果 CR 低于预设阈值(通常为 0.1),则认为矩阵具有足够的一致性。
-
**计算权重:**解决特征方程 Aw = λw 以获得最大特征值λ和对应的特征向量 w,然后将特征向量 w 归一化,得到每个子指标的权重。
-
**计算综合得分:**对于每个句子对(原始句和修正句),根据生成的动态权重计算加权得分。这个得分是通过对每个子指标的得分乘以其相应的权重并求和来得到的。
通过在不同数据集上的实验,DSGram 框架验证了动态权重方法的有效性。实验结果表明,使用动态权重的总体得分与人类评估者提供的总体得分之间的相关性显著高于使用平均权重方法的得分。
DSGram 框架中的动态权重评价方法通过模拟人类评估者的直觉评分过程,为 GEC 模型提供了一个更为精确和上下文相关的评估工具,能够根据不同的评估场景和文本类型动态调整,从而提高评估的准确性和可靠性。
2.2 全面评估GEC模型的三个子指标
全面评估 GEC 模型的三个子指标是 DSGram 框架的核心组成部分,它们的构建过程是基于对现有 GEC 评估方法的深入分析和对大语言模型时代需求的理解。
在研究人员的分析中,Asano 等人引入的三个子指标存在冗余和不足。研究人员使用 SOME 的数据集计算这些指标的相关性,结果如图 3 所示。热图显示语法性和流畅性之间的相关性很强。
因此,研究人员将这两个指标合并为一个“流畅性”度量。此外,为了解决基于 LLM 的 GEC 模型中存在的过度纠正问题,他们引入了一个新的子指标“编辑水平”,用于评估与过度纠正相关的问题。基于 200 个人工标注分数的计算,这些新子指标的相关性如图 4 所示。可以看出,他们的分类标准改善了子指标的分布。
以下是这三个子指标的详细说明:
- 语义一致性(Semantic Coherence)
语义一致性评估的是纠正后的句子是否保留了原始句子的意义。这个指标检查修正后的句子是否传达了与原始句子相同的意图,没有引入语义错误或改变核心信息。语义一致性的重要性在于,即使句子在语法上是正确的,如果它改变了句子的原意,那么这种修正也是不可取的。
- 编辑水平(Edit Level)
编辑水平关注的是 GEC 模型对句子所做的修改程度。这个指标评估所做的修正是否必要和适当,或者句子是否被不必要或过度地修改,从而偏离了原始文本。编辑水平的考虑是为了防止过度纠正,即模型进行了过多的修改,导致句子失去了原有的风格和语境。
- 流畅性(Fluency)
流畅性评估的是纠正后的句子的语法正确性和自然流畅度。这个指标检查句子是否遵循正确的语法规则,结构是否连贯,读起来是否流畅,没有尴尬的措辞或不自然的构造。流畅性是评估 GEC 模型输出质量的关键指标,因为它直接影响到读者对文本的理解和接受。
2.3 模拟人类评分以优化模型
研究人员使用提示工程技术,如 CoT、Few-shot 和在打分前输出理由等来设计 prompt,使 LLM 能够根据上述三个子指标生成分数。
为了验证 DSGram 框架的有效性和降低评估成本,他们开发了 DSGram-Eval 和 DSGram-LLMs 两个数据集。DSGram-Eval 是用人工评分创建的数据集,包含了人类对各类纠正结果的评分,从而为 GEC 模型的评估提供了一个更为真实和全面的基准。DSGram-LLMs 是使用 GPT-4 标注的一个模拟人类评分的数据集,以微调开源 LLM,探索它们用于评分的可行性。
实验验证
以下是研究人员的方法在公开数据集 SEEDA 上做 meta-evaluation 的结果:
以下是研究人员得方法在不同 LLM 上的表现对比:
总结
当下,虽然 LLM 已经作为评估工具被研究者广泛应用,但在实际实验过程中,输出的 bias 和不稳定性还是很影响 LLM 评分的可信度。为了提高 LLM 评分的透明度和稳定性,研究人员提出了这个评分框架 DSGram,用预先输出各个子指标来提高评分的透明度,然后用动态加权的过程尽可能模拟人类的评分过程。
为什么要使用动态的权重?拿研究人员的三个子指标「流畅性,语义相似度和编辑水平」举例,人类在评分过程中虽然不会给这三个指标赋予一个显式的权重,但还是会在心里对他们三个的重要性有所考量,不同人心目中子指标的重要性也会有所不同。大模型带有推理又具有一定随机性的输出恰好能模拟这个过程。
通过这些努力,DSGram 评估框架,DSGram-Eval 和 DSGram-LLMs 数据集为 GEC 模型的评估提供了一个更为坚实的基础,使得研究者们能够更准确地衡量模型的性能,并探索如何通过动态加权机制来优化评估过程。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈