计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-30
目录
文章目录
- 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-30
-
- 目录
- 1. Proof Automation with Large Language Models
- 2. Investigating Layer Importance in Large Language Models
- 3. The Impact of Large Language Models in Academia: from Writing to Speaking
- 4. Are Large Language Models Good Essay Graders?
- 5. Past Meets Present: Creating Historical Analogy with Large Language Models
- 6. Enhancing Advanced Visual Reasoning Ability of Large Language Models
- 后记
1. Proof Automation with Large Language Models
M Lu, B Delaware, T Zhang - arXiv preprint arXiv:2409.14274, 2024
使用大语言模型做自动化证明
概览:
本文研究了如何利用大型语言模型(LLMs)自动化地生成形式化证明。研究的主要成果是提出了一种名为PALM的新方法,该方法结合了LLMs和符号方法,通过生成-修复流程来自动化证明过程。PALM在包含超过10K定理的大型数据集上进行了评估,结果表明PALM在证明定理方面显著优于其他最先进的方法,成功证明了76.6%至180.4%更多的定理。此外,PALM证明了1270个超出现有方法能力的定理,并展示了其在不同LLMs上的泛化能力。
论文研究背景:
随着软件系统复杂性的增加,确保软件正确性变得至关重要。交互式定理证明器(如Coq、Isabelle和Lean)提供了一种强大的工具,用于形式化地保证软件的正确性。然而,使用这些工具需要大量的手动努力和专业知识。虽然LLMs已显示出在自动生成自然语言非形式化证明方面的潜力,但在生成交互式定理证明器中的正式证明方面效果不佳。
技术挑战:
LLMs在生成正式证明时面临挑战,包括正确识别证明的高层结构,但难以正确处理低层细节。此外,LLMs生成的证明脚本经常因为细节错误而被拒绝。
如何破局:
针对这些技术挑战,PALM方法首先使用LLMs生成初始证明,然后利用针对性的符号方法迭代修复低层问题。PALM依赖于四种修复机制,针对在我们的形式研究中识别的常见错误类型。如果修复机制失败,PALM使用回溯过程重新生成先前的证明步骤,以尝试修复错误。
技术应用:
PALM在CoqGym数据集上进行了广泛的评估,该数据集包含来自27个开源Coq项目的13,137个定理。实验结果表明,PALM在证明定理方面显著优于现有的方法,并且可以证明更复杂的定理。PALM的潜在应用包括辅助软件开发、操作系统、分布式系统和其他需要形式化验证的领域。
2. Investigating Layer Importance in Large Language Models
Y Zhang, Y Dong, K Kawaguchi - arXiv preprint arXiv:2409.14381, 2024
https://arxiv.org/pdf/2409.14381
探究大型语言模型中各层的重要性
摘要:
本研究旨在提高我们对大型语言模型(LLMs)的理解,特别是通过调查LLMs中各个层的重要性。我们提出了一种高效的抽样方法,使用Shapley值(一种在特征归因和数据评估中广泛使用的解释框架)来评估层的重要性。此外,我们进行了层消融实验,以评估排除特定层对性能的影响。研究发现某些早期层(称为基石层)对模型性能有显著贡献,移除其中一个基石层可能导致模型性能大幅下降,甚至降至随机猜测水平。相反,移除非基石层通常只会导致边缘性能变化。
研究背景:
大型语言模型(LLMs)在文本生成、翻译和理解任务上展现了前所未有的能力。然而,LLMs的不透明性阻碍了它们在安全关键场景中的部署,并限制了更好模型的发展。
问题与挑战:
尽管LLMs取得了成功,但它们仍存在诸如幻觉、偏见和不稳定的推理能力等问题。当神经网络出现错误或表现不佳时,确定模型中负责这些问题的具体部分是非常有价值的。因此,理解神经网络的内部工作机制和识别各个组成部分的作用是解决与LLMs相关挑战的关键。
如何解决:
我们通过将Shapley值框架扩展到LLMs的层,并采用高效的抽样方法来估计层的重要性。此外,我们还进行了层消融实验来观察特定层对性能的影响。
创新点:
- 提出了一种基于LLM层的接近度的高效抽样方法来估计层的Shapley值。
- 通过层Shapley值与层消融相结合,使用机制解释视角补充了传统的模型解释方法。
- 在LLMs中识别出基石层,这些层在许多任务中都有显著的贡献,并且其缺失会导致模型性能的崩溃。
算法模型:
- Shapley值:用于量化每个层对整体模型性能的贡献。
- 层消融实验:通过选择性地移除模型中的一个目标层,并观察对各种任务性能的影响。
实验效果:
- Shapley值结果:显示了几个层(通常是早期层)在所有任务中对模型性能有显著贡献。
- 层消融结果:移除一个基石层会导致模型性能立即下降到随机猜测水平,而移除其他层只会导致微小的性能下降。
- 重要数据与结论:基石层通常位于模型的开始部分,而移除这些层通常会导致模型性能大幅下降。