AAAI 2025 | 北大提出基于大模型的动态权重评估方法,探索语法纠错系统的评估新范式...

6e6cfe65419192b72b93eab9cf562a2e.gif

TL;DR:本研究提出了一种新的语法纠错系统评估指标,能够根据评估句子类型不同,动态调整子指标的权重,确保评估分数更加符合人类反馈。

56706f01c634db750edf45ed7862fb5e.png

论文标题:

DSGram: Dynamic Weighting Sub-Metrics for Grammatical Error Correction in the Era of Large Language Models

作者单位:

北京大学(万小军团队)、北京交通大学

论文链接:

https://arxiv.org/abs/2412.12832

代码链接:

https://github.com/jxtse/GEC-Metrics-DSGram

Highlights

  • 提出了 DSGram 这一创新的评估框架,它通过动态调整子指标的权重,提供了更为精准的评估方法。

  • 整合了语义一致性、编辑水平和流畅性三个关键评价维度,确保评估结果更加符合人类反馈。

  • 开发了两个新数据集,DSGram-Eval 和 DSGram-LLMs,用于模拟人类评分来验证和微调算法。

0efd64bd339ea11d4d41e618ff66046c.png

36028fb16a97dc0678c4d151010cb05f.png

背景简介

语法纠错(Grammatical Error Correction, GEC)模型旨在自动纠正自然语言文本中的语法错误,提升书面内容的质量和准确性。传统上,GEC 模型的评估运用了多种指标,这些指标可以分为需要参考文本的(reference-based)和不需要参考文本的(reference-free)两类。

基于参考的评估指标,如 BLEU、ERRANT 和 M²,通过将模型生成的文本与正确的参考文本进行比较来评估语法纠正的准确性,并且在这一领域得到了广泛的应用。

尽管这些指标很有用,但它们存在固有的局限性。例如,黄金参考答案(golden reference)可能无法涵盖所有可能的纠正方法࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值