计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-06
目录
文章目录
- 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-06
-
- 目录
- 1. A LLM-Powered Automatic Grading Framework with Human-Level Guidelines Optimization
- 2. General Preference Modeling with Preference Representations for Aligning Language Models
- 3. GraphIC: A Graph-Based In-Context Example Retrieval Model for Multi-Step Reasoning
- 4. CodePMP: Scalable Preference Model Pretraining for Large Language Model Reasoning
- 5. SEAL: SEmantic-Augmented Imitation Learning via Language Model
- 后记
1. A LLM-Powered Automatic Grading Framework with Human-Level Guidelines Optimization
Authors: Yucheng Chu, Hang Li, Kaiqi Yang, Harry Shomer, Hui Liu, Yasemin Copur-Gencturk and Jiliang Tang
https://arxiv.org/abs/2410.02165
一个由大型语言模型驱动的自动评分框架,具有人类水平的指导方针优化
摘要:
文章提出了一个名为GradeOpt的统一多代理自动短答案评分(ASAG)框架,该框架利用大型语言模型(LLMs)作为评分员对开放性简答题(SAGs)进行评分。GradeOpt框架通过自我反思机制自动优化原始评分指南,以提高评分准确性和与人类评分员的行为一致性。通过在教育内容知识(PCK)和内容知识(CK)问题上的实验,证明了GradeOpt在评分准确性和与人类评分员行为一致性方面相较于现有基线模型的优越性能。
研究背景:
在教育分析(LA)中,开放式简答题(SAGs)被广泛认为是提供对学习者反应更深入了解的有力工具。然而,SAGs在实践中常常因为评分工作量大和评估不一致性而面临挑战。随着自然语言处理(NLP)技术的进步,自动短答案评分(ASAG)提供了一个有希望的解决方案。但是,现有的ASAG算法通常在泛化能力上受限,并且往往是针对特定问题定制的。
问题与挑战:
现有的ASAG算法在泛化到不同类型的问题上存在困难,并且依赖于大量标注样本。此外,深度学习模型在样本数量有限时容易过拟合,并且其“黑箱”特性限制了它们的应用。
如何解决:
文章提出了一个多代理ASAG框架,通过迭代反射机制自动优化评分指南。框架包括三个基于LLM的代理:评分员(Grader)、反射器(Reflector)和提炼器(Refiner),它们协同工作以提高训练数据集上的分类准确性。
创新点:
- 提出了一个统一的多代理ASAG框架,利用LLMs进行评分。
- 引入了反射器和提炼器代理,通过自我反思自动优化评分指南。
- 实现了一个迭代优化过程,通过错误反馈改进评分规则。
- 提出了一种基于错误反馈的测试时适应性训练方法。
算法模型:
GradeOpt框架包括训练阶段和测试时适应阶段。在训练阶段,通过多代理系统协同预测评分、识别错误并提出规则修改建议来优化评分指南。在测试时适应阶段,系统首先对一小批未标记的答案样本执行分布外(OOD)测试,然后根据需要进行测试时训练。
实验效果:
实验结果表明,GradeOpt在评分准确性和与人类评分员行为一致性方面均优于现有基线模型。例如,在PCK和CK问题上,GradeOpt的平均Cohen’s Kappa值达到了0.85,而其他模型如RoBERTa和SBERT的平均值分别为0.65和0.35。
算法代码:
推荐阅读指数:
8/10
推荐理由:
这篇文章提出了一个创新的自动评分框架,可以显著减轻教育工作者的评分负担,并提供一致和准确的评分。
2. General Preference Modeling with Preference Representations for Aligning Language Models
Authors: Yifan Zhang, Ge Zhang, Yue Wu, Kangping