计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-30_past meets present: creating historical analogy wi-CSDN博客

本文链接：https://blog.csdn.net/fyf2007/article/details/142643239

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-30

1. Proof Automation with Large Language Models

M Lu, B Delaware, T Zhang - arXiv preprint arXiv:2409.14274, 2024
在这里插入图片描述
使用大语言模型做自动化证明

概览：

本文研究了如何利用大型语言模型（LLMs）自动化地生成形式化证明。研究的主要成果是提出了一种名为PALM的新方法，该方法结合了LLMs和符号方法，通过生成-修复流程来自动化证明过程。PALM在包含超过10K定理的大型数据集上进行了评估，结果表明PALM在证明定理方面显著优于其他最先进的方法，成功证明了76.6%至180.4%更多的定理。此外，PALM证明了1270个超出现有方法能力的定理，并展示了其在不同LLMs上的泛化能力。

论文研究背景：

随着软件系统复杂性的增加，确保软件正确性变得至关重要。交互式定理证明器（如Coq、Isabelle和Lean）提供了一种强大的工具，用于形式化地保证软件的正确性。然而，使用这些工具需要大量的手动努力和专业知识。虽然LLMs已显示出在自动生成自然语言非形式化证明方面的潜力，但在生成交互式定理证明器中的正式证明方面效果不佳。

技术挑战：

LLMs在生成正式证明时面临挑战，包括正确识别证明的高层结构，但难以正确处理低层细节。此外，LLMs生成的证明脚本经常因为细节错误而被拒绝。

如何破局：

针对这些技术挑战，PALM方法首先使用LLMs生成初始证明，然后利用针对性的符号方法迭代修复低层问题。PALM依赖于四种修复机制，针对在我们的形式研究中识别的常见错误类型。如果修复机制失败，PALM使用回溯过程重新生成先前的证明步骤，以尝试修复错误。
在这里插入图片描述

技术应用：

PALM在CoqGym数据集上进行了广泛的评估，该数据集包含来自27个开源Coq项目的13,137个定理。实验结果表明，PALM在证明定理方面显著优于现有的方法，并且可以证明更复杂的定理。PALM的潜在应用包括辅助软件开发、操作系统、分布式系统和其他需要形式化验证的领域。

2. Investigating Layer Importance in Large Language Models

Y Zhang, Y Dong, K Kawaguchi - arXiv preprint arXiv:2409.14381, 2024
在这里插入图片描述
https://arxiv.org/pdf/2409.14381
探究大型语言模型中各层的重要性

摘要：

本研究旨在提高我们对大型语言模型（LLMs）的理解，特别是通过调查LLMs中各个层的重要性。我们提出了一种高效的抽样方法，使用Shapley值（一种在特征归因和数据评估中广泛使用的解释框架）来评估层的重要性。此外，我们进行了层消融实验，以评估排除特定层对性能的影响。研究发现某些早期层（称为基石层）对模型性能有显著贡献，移除其中一个基石层可能导致模型性能大幅下降，甚至降至随机猜测水平。相反，移除非基石层通常只会导致边缘性能变化。