计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-06

最新推荐文章于 2025-06-05 22:56:29 发布

sp_fyf_2024

最新推荐文章于 2025-06-05 22:56:29 发布

阅读量1.5k

点赞数 37

分类专栏：人工智能前沿技术大语言模型文章标签：人工智能算法语言模型自然语言处理神经网络深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fyf2007/article/details/142713213

版权

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-06

目录

文章目录

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-06

1. A LLM-Powered Automatic Grading Framework with Human-Level Guidelines Optimization

Authors: Yucheng Chu, Hang Li, Kaiqi Yang, Harry Shomer, Hui Liu, Yasemin Copur-Gencturk and Jiliang Tang
https://arxiv.org/abs/2410.02165
在这里插入图片描述
一个由大型语言模型驱动的自动评分框架，具有人类水平的指导方针优化

摘要：

文章提出了一个名为GradeOpt的统一多代理自动短答案评分（ASAG）框架，该框架利用大型语言模型（LLMs）作为评分员对开放性简答题（SAGs）进行评分。GradeOpt框架通过自我反思机制自动优化原始评分指南，以提高评分准确性和与人类评分员的行为一致性。通过在教育内容知识（PCK）和内容知识（CK）问题上的实验，证明了GradeOpt在评分准确性和与人类评分员行为一致性方面相较于现有基线模型的优越性能。

研究背景：

在教育分析（LA）中，开放式简答题（SAGs）被广泛认为是提供对学习者反应更深入了解的有力工具。然而，SAGs在实践中常常因为评分工作量大和评估不一致性而面临挑战。随着自然语言处理（NLP）技术的进步，自动短答案评分（ASAG）提供了一个有希望的解决方案。但是，现有的ASAG算法通常在泛化能力上受限，并且往往是针对特定问题定制的。

问题与挑战：

现有的ASAG算法在泛化到不同类型的问题上存在困难，并且依赖于大量标注样本。此外，深度学习模型在样本数量有限时容易过拟合，并且其“黑箱”特性限制了它们的应用。

如何解决：

文章提出了一个多代理ASAG框架，通过迭代反射机制自动优化评分指南。框架包括三个基于LLM的代理：评分员（Grader）、反射器（Reflector）和提炼器（Refiner），它们协同工作以提高训练数据集上的分类准确性。

创新点：

提出了一个统一的多代理ASAG框架，利用LLMs进行评分。
引入了反射器和提炼器代理，通过自我反思自动优化评分指南。
实现了一个迭代优化过程，通过错误反馈改进评分规则。
提出了一种基于错误反馈的测试时适应性训练方法。

算法模型：

GradeOpt框架包括训练阶段和测试时适应阶段。在训练阶段，通过多代理系统协同预测评分、识别错误并提出规则修改建议来优化评分指南。在测试时适应阶段，系统首先对一小批未标记的答案样本执行分布外（OOD）测试，然后根据需要进行测试时训练。

实验效果：

实验结果表明，GradeOpt在评分准确性和与人类评分员行为一致性方面均优于现有基线模型。例如，在PCK和CK问题上，GradeOpt的平均Cohen’s Kappa值达到了0.85，而其他模型如RoBERTa和SBERT的平均值分别为0.65和0.35。
在这里插入图片描述

算法代码:

推荐阅读指数：

8/10

推荐理由：

这篇文章提出了一个创新的自动评分框架，可以显著减轻教育工作者的评分负担，并提供一致和准确的评分。

2. General Preference Modeling with Preference Representations for Aligning Language Models

Authors: Yifan Zhang, Ge Zhang, Yue Wu, Kangping

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

sp_fyf_2024 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。