Causal and Reasoning
文章平均质量分 65
该专栏主要整理LLM causal和reasoning相关的paper
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
A COMPARATIVE STUDY ON REASONING PATTERNS OF OPENAI’S O1 MODEL
使大型语言模型(LLM)能够处理更广泛的复杂任务(例如编码、数学)引起了许多研究人员的极大关注。随着LLM的不断发展,增加模型参数的数量会降低性能改进和计算成本。最近,OpenAI的o1模型表明,推理策略(即测试时计算方法)也可以显著增强LLM的推理能力。然而,这些方法背后的机制尚未被探索。在我们的工作中,为了研究o1的推理模式,我们使用OpenAI的GPT-4o作为三个领域(即数学、代码和常识推理)的一般推理基准的骨干,将o1与现有的测试时计算方法(BoN、逐步BoN、代理工作流和自精炼)进行了比较。原创 2024-10-22 09:00:00 · 136 阅读 · 0 评论 -
Survey on Reasoning Capabilities and Accessibility of Large Language Models Using Biology-related
本研究论文讨论了过去十年在生物医学和大型语言模型方面取得的进展。为了了解这些进步是如何相互携手的,本文还讨论了自然语言处理技术和工具与生物医学的整合。最后,该论文的目标是通过为前两种语言模型引入新的问题和提示列表,来扩展去年(2023 年)进行的一项调查。通过这项调查,本文试图量化 LLM 推理能力的改进,以及普通用户对这些改进的感受程度。此外,本文旨在通过促使 LLM 深入回答开放式问题来扩展对生物文献检索的研究。原创 2024-10-18 09:45:00 · 98 阅读 · 0 评论 -
Mind’s Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models
大型语言模型(LLMs)在语言理解和各种推理任务中表现出了令人印象深刻的性能。然而,他们在空间推理方面的能力,作为人类认知的一个关键方面,仍然相对未被探索。人类拥有非凡的能力,通过一种称为“心灵之眼”的过程,创造出看不见的物体和行为的心理图像,从而能够想象看不见世界。受这种认知能力的启发,我们提出了思维可视化(VoT)提示。VoT旨在通过可视化LLM的推理痕迹来引发LLM的空间推理,从而指导后续的推理步骤。我们将VoT用于多跳空间推理任务,包括自然语言导航、视觉导航和2D网格世界中的视觉拼接。原创 2024-09-04 19:54:21 · 141 阅读 · 0 评论 -
LLM AS A MASTERMIND: A SURVEY OF STRATEGIC REASONING WITH LARGE LANGUAGE MODELS
本文对大型语言模型(LLM)在战略推理中的现状和机遇进行了全面的调查,这是一种复杂的推理形式,需要理解和预测多智能体环境中的对手行为,同时相应地调整策略。战略推理的特点是它关注多主体之间互动的动态性和不确定性,理解环境和预测他人的行为至关重要。我们探索了与LLM战略推理相关的范围、应用、方法和评估指标,强调了该领域的蓬勃发展以及提高其决策表现的跨学科方法。它旨在系统化和澄清关于这一主题的分散文献,提供系统综述,强调战略推理作为一种关键认知能力的重要性,并为未来的研究方向和潜在的改进提供见解。原创 2024-08-26 17:24:08 · 165 阅读 · 0 评论 -
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models
最近开发的大型语言模型(LLM)已被证明在广泛的语言理解任务中表现出色。但是,他们真的能“推理”自然语言吗?这个问题一直受到广泛的研究关注,许多推理技巧,如常识、数值和定性,都得到了研究。然而,与“逻辑推理”相关的关键技能仍未得到充分探索。现有的研究LLM这种推理能力的工作只集中在命题逻辑和一阶逻辑的几个推理规则(如模式子和模式子)上。针对上述局限性,我们综合评估了LLM在跨越命题逻辑、一阶逻辑和非单调逻辑的25种不同推理模式上的逻辑推理能力。原创 2024-08-26 09:50:48 · 244 阅读 · 0 评论 -
Causal Agent based on Large Language Model
大型语言模型(LLM)在各个领域都取得了重大成功。然而,因果问题和因果理论的内在复杂性给用自然语言准确描述它们带来了挑战,使LLM难以有效地理解和使用它们。因果方法不容易通过自然语言传达,这阻碍了LLM准确应用它们的能力。此外,因果数据集通常是表格形式的,而LLM在处理自然语言数据方面表现出色,造成了结构不匹配,阻碍了使用表格数据进行有效推理。因果推理能力的缺乏限制了LLM的发展。为了应对这些挑战,我们在一个名为因果代理的代理框架内为LLM配备了因果工具,使其能够解决因果问题。原创 2024-08-20 17:28:14 · 153 阅读 · 0 评论 -
Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning
本文研究了数学问题的表面形式与其在大型语言模型中的可解性之间的关系。我们发现,表面形式的细微变化会显著影响答案分布和解决率,暴露出语言模型在通过复杂问题进行推理时对表面形式缺乏鲁棒性和敏感性。为了提高数学推理性能,我们提出了自洽Paraphrases(SCoP),它使推理路径从问题的特定表面形式多样化。我们在三个大型语言模型的四个数学推理基准上评估了我们的方法,并表明SCoP比普通自一致性提高了数学推理性能,特别是对于最初被认为无法解决的问题。原创 2024-08-13 20:00:21 · 35 阅读 · 0 评论 -
Evaluating Interventional Reasoning Capabilities of Large Language Models
许多决策任务需要估计干预措施对系统不同部分的因果影响。随着从业者考虑使用大型语言模型(LLM)来自动化决策,研究它们的因果推理能力变得至关重要。最近的一项工作评估了LLM检索常识因果事实的能力,但这些评估并没有充分评估LLM如何推理干预措施。受干预在因果推理中的作用的启发,在本文中,我们进行了实证分析,以评估LLM是否能够准确地更新他们对数据生成过程的知识,以应对干预。我们创建了跨越不同因果图(如混淆、中介)和变量类型的基准,并能够研究基于干预的推理。原创 2024-07-30 10:20:09 · 58 阅读 · 0 评论 -
New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models
生成准确的逐步推理对于大型语言模型(LLM)解决复杂问题、增强鲁棒性和可解释性至关重要。尽管关于开发高级推理方法的研究层出不穷,但系统分析生成推理链中的各种LLM和推理策略仍然是一个重大挑战。困难源于缺乏两个关键要素:(1)用于评估不同任务上生成的推理链的自动方法,以及(2)用于系统比较的不同推理方法的统一形式和实现。本文旨在填补这一空白:(1)我们引入了AutoRace用于全自动推理链评估。现有的指标依赖于昂贵的人工注释或预定义的LLM提示,无法适应不同的任务。原创 2024-07-28 14:33:05 · 189 阅读 · 0 评论 -
SAAS: Solving Ability Amplification Strategy for Enhanced Mathematical Reasoning
本研究提出了一种新的学习方法,旨在提高大型语言模型(LLMs)的数学推理和解决问题的能力。我们专注于整合思维链(CoT)和思维程序(PoT)学习,假设优先学习数学推理能力有助于提高解决问题的能力。因此,CoT的初始学习对于解决具有挑战性的数学问题至关重要。为此,我们提出了一种顺序学习方法,称为SAAS(解决能力放大策略),该方法从CoT学习战略性地过渡到PoT学习。我们的实证研究涉及使用多个基准进行广泛的性能比较,表明我们的SAAS达到了最先进的(SOTA)性能。原创 2024-07-23 10:14:43 · 29 阅读 · 0 评论 -
Enhancing Large Language Models’ Logical Reasoning through Logical Fallacy Understanding
大型语言模型(LLMs)在许多推理任务中表现良好,但它们仍然难以处理包括逻辑推理在内的一些复杂的推理任务。LLM在逻辑推理方面表现不佳的一个不可忽视的原因是他们忽视了正确理解逻辑谬误。为了评估LLMs的逻辑谬误理解能力(LFU),本文从WHAT、WHY和HOW三个认知维度提出了五个具体任务。针对这些LFU任务,我们成功构建了一个基于GPT-4的新数据集LFUD,并辅以少量的人工努力。我们广泛的实验证明,我们的LFUD不仅可以用于评估LLM的LFU能力,还可以对LLM进行微调,以显著提高逻辑推理的性能。原创 2024-07-21 09:50:54 · 75 阅读 · 0 评论 -
Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models - A Survey
大型语言模型(LLM)最近在涉及推理的任务中表现出了令人印象深刻的性能,这引发了关于这些模型是否具有与人类相似的推理能力的激烈争论。然而,尽管取得了这些成功,LLM的推理能力的深度仍然不确定。这种不确定性部分源于主要关注任务表现,通过肤浅的准确性指标来衡量,而不是对模型推理行为的彻底调查。本文试图通过对超越任务准确性的研究进行全面回顾来解决这一差距,为模型的推理过程提供更深入的见解。此外,我们调查了评估LLM推理行为的流行方法,强调了当前趋势和对更细致的推理分析的努力。原创 2024-07-19 11:20:24 · 369 阅读 · 0 评论 -
A Comprehensive Evaluation on Event Reasoning of Large Language Models
事件推理是许多应用程序的基础能力。它需要事件模式知识来执行全局推理,并需要处理事件间关系和推理范式的多样性。LLM在各种关系和推理范式上完成事件推理的程度仍然未知。为了缓解这种差异,我们全面评估了LLM的事件推理能力。我们引入了一个新的基准EV2来评估EVent推理。EV2由模式和实例两个层次的评估组成,在关系和推理范式方面是全面的。我们在EV2上进行了广泛的实验。我们发现LLMs具有完成事件推理的能力,但他们的表现远不能令人满意。我们还注意到LLMs中事件推理能力的不平衡。原创 2024-07-12 15:32:54 · 188 阅读 · 0 评论 -
Injecting Salesperson’s Dialogue Strategies in Large Language Models with Chain-of-Thought Reasoning
最近对对话系统和语料库的研究主要集中在两大类:面向任务(TOD)和开放域(聊天)对话。TOD系统帮助用户完成特定任务,而开放域系统旨在创建引人入胜的对话。然而,在现实世界的场景中,用户意图通常会在交互过程中显现出来。最近的一项研究引入了SalesBot,它模拟了从闲聊到任务导向场景的对话,以培训销售代理。不幸的是,最初的数据缺乏平稳的过渡和连贯的长时间对话,导致销售与客户互动的自然性较差。为了解决这些问题,本文提出了改进的数据集SalesBot 2.0。原创 2024-07-12 09:21:58 · 58 阅读 · 0 评论 -
LLM3 : Large Language Model-based Task and Motion Planning with Motion Failure Reasoning
传统的任务和运动规划(TAMP)方法依赖于手工制作的接口,将符号任务规划与连续运动生成连接起来。这些特定领域的劳动密集型模块在解决现实环境中出现的任务方面受到限制。在这里,我们介绍了LLM3,这是一种新的基于大型语言模型(LLM)的TAMP框架,具有独立于域的接口。具体来说,我们利用预训练的LLM强大的推理和规划能力来提出符号动作序列,并选择连续的动作参数进行运动规划。至关重要的是,LLM3通过提示结合了运动规划反馈,允许LLM通过对运动失败进行推理来迭代地完善其建议。原创 2024-07-08 17:17:29 · 145 阅读 · 0 评论 -
ItD: Large Language Models Can Teach Themselves Induction through Deduction
尽管大型语言模型(LLM)在广泛的自然语言处理任务中表现出了令人印象深刻的性能,但研究人员发现,它们进行归纳的能力仍然有限。最近的工作主要采用“后过程”范式来提高LLM在归纳上的性能(例如,假设搜索和精化方法),但它们的性能仍然受到LLM固有归纳能力的约束。在本文中,我们提出了一个新的框架,即通过演绎归纳法(ItD),使LLM能够通过演绎自学归纳法。ItD框架由两个主要组件组成:用于生成归纳数据的演绎数据生成模块和用于优化LLM的微调和解码的朴素贝叶斯归纳模块。原创 2024-07-03 08:57:05 · 225 阅读 · 0 评论 -
Can Large Language Models do Analytical Reasoning?
本文以体育分析推理为切入点,探讨了最前沿的大型语言模型。我们的分析推理体现了让大型语言模型计算NBA和NFL比赛中每支球队在一个季度内得分的任务。我们的重大发现有两个方面。首先,我们发现在我们使用的所有模型中,GPT-4的有效性突出,其次是Claude-2.1,GPT-3.5、Gemini Pro和Llama-2-70b落后。具体来说,我们比较了三种不同的提示技术和分而治之的方法,发现后者是最有效的。我们的分而治之方法将逐场数据分解为更小、更易于管理的部分,单独解决每个部分,然后将它们聚合在一起。原创 2024-07-01 17:43:39 · 36 阅读 · 0 评论 -
Crimson: Empowering Strategic Reasoning in Cybersecurity through Large Language Models
我们介绍了Crimson,这是一个在网络安全领域增强大型语言模型(LLM)战略推理能力的系统。通过将CVE与MITRE ATT&CK技术相关联,Crimson推进了威胁预测和战略防御工作。我们的方法包括定义和评估网络安全战略任务,同时实施全面的人在环数据合成工作流程,以开发CVE到ATT&CK映射(CVEM)数据集。我们通过一种新颖的检索感知训练(RAT)过程及其精细迭代RAT-R,进一步增强了LLM的推理能力。原创 2024-07-01 09:52:37 · 181 阅读 · 0 评论 -
GraphInstruct: Empowering Large Language Models with Graph Understanding and Reasoning Capability
评估和增强大型语言模型(LLM)的通用能力一直是一个重要的研究课题。图形是现实世界中常见的数据结构,理解图形数据是提高通用智能的关键部分。为了评估和增强LLM的图理解能力,本文提出了一个名为GraphInstruction的基准,该基准全面包括21个经典的图推理任务,提供了不同的图生成管道和详细的推理步骤。在GraphInstruction的基础上,我们通过高效的指令调优进一步构建了GraphLM,显示出突出的图形理解能力。原创 2024-06-25 13:49:11 · 188 阅读 · 0 评论 -
SheetAgent: A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models
电子表格操作广泛存在于大多数日常工作中,显著提高了工作效率。大型语言模型(LLM)最近被尝试用于自动电子表格操作,但尚未在存在推理挑战的复杂现实任务中进行研究(例如,具有多步骤推理和模糊需求的长期操作)。为了弥补与现实世界需求的差距,我们引入了SheetRM,这是一个基准测试,具有长期和多类别任务,具有由现实挑战引起的依赖推理的操作。为了缓解上述挑战,我们进一步提出了SheetAgent,这是一种利用LLM能力的新型自治代理。原创 2024-06-22 11:29:41 · 184 阅读 · 0 评论 -
Attention-Driven Reasoning: Unlocking the Potential of Large Language Models
大型语言模型(LLM)已经显示出非凡的能力,但其推理能力和潜在机制仍知之甚少。我们提出了一种新的方法,通过注意力机制优化来增强LLM的推理,而不需要额外的训练数据。我们发现了非语义标记引起的注意力分布的低效性,并提出了一种算法来重新平衡偏斜的分布,使模型能够抽象出更细微的知识。我们的实验表明,推理能力显著提高,尤其是对于非STEM问题。我们深入了解了注意力模式在LLM推理中的作用,并提出了一种增强这些能力的方法,为更强大、更通用的语言模型铺平了道路。原创 2024-06-09 11:08:17 · 226 阅读 · 0 评论 -
Chain-of-Thought Reasoning without Prompting
在增强大型语言模型(LLM)的推理能力方面,先前的研究主要集中在特定的提示技术上,如小样本或零样本思想链(CoT)提示。这些方法虽然有效,但通常涉及手动密集的提示工程。我们的研究采用了一种新颖的方法,提出了一个问题:LLM能在没有提示的情况下有效推理吗?我们的研究结果表明,有趣的是,通过简单地改变解码过程,可以从预训练的LLM中引出CoT推理路径。与传统的贪婪解码不同,我们研究了顶部-𝑘 替代token,揭示了CoT路径经常是这些序列中固有的。原创 2024-05-28 10:38:41 · 93 阅读 · 0 评论 -
Advancing Abstract Reasoning in Large Language Models via Generic Fact Guidance
大型语言模型(LLM)在各种推理场景中都取得了令人印象深刻的性能和强大的可解释性,标志着向模仿类人智能迈出了重要一步。尽管如此,当任务是由一般事实支持的简单问题时,LLM往往无法提供一致和准确的答案,这表明抽象推理能力不足。这引发了一场激烈的争论,争论的焦点是LLM是真正的推理还是仅仅是记忆。有鉴于此,我们设计了一项初步研究,以量化和深入研究现有LLM的抽象推理能力。我们的发现揭示了他们的一般推理和抽象推理表现之间的巨大差异。原创 2024-05-27 19:39:04 · 257 阅读 · 0 评论 -
Large Language Models and Causal Inference in Collaboration: A Comprehensive Survey
因果推理通过捕捉变量之间的因果关系,在提高自然语言处理(NLP)模型的预测准确性、公平性、稳健性和可解释性方面显示出了潜力。生成性大型语言模型(LLM)的出现对各种NLP领域产生了重大影响,特别是通过其先进的推理能力。本次调查的重点是从因果角度评估和改进LLM,包括以下方面:理解和提高LLM的推理能力,解决LLM中的公平和安全问题,用解释补充LLM,以及处理多模态。同时,LLM强大的推理能力反过来可以帮助因果关系的发现和因果效应的估计,从而为因果推理领域做出贡献。原创 2024-05-27 17:29:02 · 154 阅读 · 0 评论 -
Large Language Models are Contrastive Reasoners
提示方法在增强预训练的大型语言模型(LLM)的能力方面发挥着至关重要的作用。我们探讨了对比提示(CP)如何显著提高大型语言模型执行复杂推理的能力。我们通过在LLM提供答案之前简单地添加“让我们给出正确和错误的答案”来证明LLM是不错的对比推理机。在各种大型语言模型上的实验表明,零样本对比提示提高了一系列算术、常识和符号推理任务的性能,而无需任何手工制作的小样本示例,例如使用最先进的GPT-4模型,将GSM8K和AQUA-RAT的准确率从35.9%提高到88.8%,将41.3%提高到62.2%。原创 2024-05-27 14:45:46 · 66 阅读 · 0 评论 -
NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language Models
理解多模态大型语言模型(MLLMs)的推理能力是一个重要的研究领域。在这项研究中,我们引入了一个动态基准NPHardEval4V,旨在解决在评估MLLM的纯推理能力方面存在的差距。我们的基准测试旨在提供一个场所,将图像识别和指令遵循等各种因素的影响与模型的整体性能区分开来,使我们能够专注于评估它们的推理能力。它是通过将问题的文本描述从NPHardEval转换为图像表示来构建的。我们的研究结果揭示了不同模型之间推理能力的显著差异,并突出了MLLM在推理方面与LLM相比相对较弱的性能。原创 2024-05-21 17:42:16 · 35 阅读 · 0 评论 -
PHAnToM: Personality Has An Effect on Theory-of-Mind Reasoning in Large Language Models
大型语言模型(LLM)的最新进展表明,在自然语言处理的许多任务中,它们的能力与人类相当,甚至优于人类。尽管取得了这一进展,LLM在人类天生擅长的社会认知推理方面仍然不足。本研究从对某些人格特征与心理理论推理之间联系的心理学研究以及对提示对LLM能力的超敏感性的提示工程研究中汲取灵感,调查了在LLM中使用提示诱导个性如何影响其心理理论推理能力。我们的研究结果表明,在三种不同的ToM任务中,某些诱导性格会显著影响LLM的推理能力。原创 2024-05-21 15:25:03 · 32 阅读 · 0 评论 -
Exploring the Limitations of Large Language Models in Compositional Relation Reasoning
我们通过一个包含1500个英语测试案例的基准,对大型语言模型(LLM)推理作文关系的能力进行了全面评估,该基准旨在涵盖六种不同类型的作文关系:位置关系、比较关系、个人关系、数学关系、同一性关系和其他关系。认识到多语言能力的重要性,我们扩大了评估范围,将这些案例翻译成中文、日语、法语和韩语。我们的多语言作文关系(MCR)基准旨在研究LLM在处理不同语言背景下的作文关系推理时的稳健性和适应性。我们的基准MCR将在发布。原创 2024-05-20 10:31:21 · 300 阅读 · 0 评论 -
SELF-DISCOVER: Large Language Models Self-Compose Reasoning Structures
我们介绍了自发现,这是LLM自发现任务内在推理结构的通用框架,用于解决复杂的推理问题,这些问题对典型的提示方法具有挑战性。该框架的核心是自我发现过程,LLM选择多个原子推理模块,如批判性思维和逐步思维,并将它们组成一个明确的推理结构,供LLM在解码过程中遵循。与思想链(CoT)相比,自发现大大提高了GPT-4和PaLM 2在具有挑战性的推理基准(如BigBench Hard、扎根代理推理和MATH)上的性能,提高了32%。原创 2024-05-13 19:21:04 · 174 阅读 · 0 评论 -
Cause and Effect: Can Large Language Models Truly Understand Causality?
随着大型语言模型(LLM)的兴起,了解其在破译和解释语言所包含的复杂因果关系网络方面的能力和局限性变得至关重要。目前的方法使用显性或隐性因果推理,但强烈需要一种统一的方法,将两者结合起来,以更有效地处理广泛的因果关系。本研究提出了一种新的架构,称为上下文感知推理增强与反事实分析(CARE-CA)框架,以增强因果推理和可解释性。所提出的框架结合了具有ConceptNet和反事实陈述的显式因果检测模块,以及通过LLM的隐式因果检测。我们的框架更进一步,提供了一层反事实的解释,以强调LLM对因果关系的理解。原创 2024-05-10 11:11:15 · 102 阅读 · 0 评论 -
MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning
众所周知,工具增强的大型语言模型(TALM)可以增强大型语言模型的技能,从而提高它们在许多任务中的推理能力。尽管TALM已成功应用于不同的问答基准,但它们在复杂数学推理基准上的功效,以及知识检索和数学方程求解工具提供的潜在互补优势,都是开放的研究问题。在这项工作中,我们提出了MATHSENSEI,一个用于数学推理的工具增强的大型语言模型。原创 2024-05-06 19:32:37 · 161 阅读 · 0 评论 -
Comparing Inferential Strategies of Humans and Large Language Models in Deductive Reasoning
演绎推理在形成合理和连贯的论点中起着关键作用。它允许个人根据所提供信息的真实价值得出合乎逻辑的结论。大型语言模型(LLM)领域的最新进展已经展示了它们执行演绎推理任务的能力。尽管如此,很大一部分研究主要评估LLM在解决此类任务时的准确性,往往忽略了对其推理行为的更深入分析。在这项研究中,我们借鉴认知心理学的原理,通过详细评估LLM对命题逻辑问题的反应,来检验LLM所使用的推理策略。我们的研究结果表明,LLM显示出与人类相似的推理模式,包括假设跟随或链构建等策略。原创 2024-05-04 12:39:42 · 99 阅读 · 0 评论 -
Instructing Large Language Model in Multi-Step Reasoning by Exploring Graph Structure of the Text
尽管大型语言模型(LLM)擅长处理简单的推理任务,但由于一系列因素,当面临更复杂的多步骤推理时,它们经常会遇到困难。首先,自然语言通常包含实体之间的复杂关系,这使得在更长的时间内保持清晰的推理链具有挑战性。其次,丰富的语言多样性意味着相同的实体和关系可以使用不同的术语和结构来表达,这使识别和建立多条信息之间的联系的任务变得复杂。图提供了一种有效的解决方案来表示富含关系信息的数据,并捕获实体之间的长期依赖关系。原创 2024-04-23 14:31:10 · 57 阅读 · 0 评论 -
Chain of Logic: Rule-Based Reasoning with Large Language Models
基于规则的推理是法律推理的一种基本类型,它使我们能够通过将规则准确地应用于一组事实来得出结论。我们探索因果语言模型作为基于规则的推理器,特别是关于组成规则——由多个元素组成的规则,这些元素形成了复杂的逻辑表达式。关于组成规则的推理是具有挑战性的,因为它需要多个推理步骤,并注意元素之间的逻辑关系。我们介绍了一种新的提示方法——逻辑链,它通过分解(将元素作为独立的逻辑线程来求解)和重组(将这些子答案重新组合以求解底层逻辑表达式)来引发基于规则的推理。原创 2024-04-19 14:35:51 · 75 阅读 · 0 评论 -
Assessing Temporal Information and Reasoning in Large Language Models
大型语言模型(LLM)正变得越来越普遍,但它们推理和保留时间信息的能力仍然有限。这阻碍了它们在现实世界场景中的应用,在现实世界中,理解事件的顺序性质至关重要。本文在一个新的大规模时间数据集TempUN上对最先进的模型进行了实验,以揭示时间保持和推理能力的显著局限性。有趣的是,闭源模型更频繁地表明知识差距,这可能表明在不确定性意识和错误反应之间存在权衡。此外,探索各种微调方法并没有带来重大的性能改进。相关联的数据集和代码可在以下URL中获得。原创 2024-04-13 10:36:45 · 41 阅读 · 0 评论 -
Bridging Causal Discovery and Large Language Models
因果发现(CD)和大型语言模型(LLM)代表了两个新兴的研究领域,对人工智能具有重要意义。尽管它们有着不同的起源——CD专注于从数据中揭示因果关系,LLM专注于处理和生成类人文本——但这些领域的融合为理解复杂系统提供了新的见解和方法。本文对LLM(如GPT-4)与CD任务的集成进行了全面的调查。我们系统地回顾和比较了利用LLM执行各种CD任务的现有方法,并强调了它们对元数据和自然语言的创新使用,以推断因果结构。原创 2024-04-11 10:28:25 · 134 阅读 · 0 评论 -
BOOSTING OF THOUGHTS: TRIAL-AND-ERROR PROBLEM SOLVING WITH LARGE LANGUAGE MODELS
大型语言模型(LLM)在一系列问题上的推理性能严重依赖于思维链提示,这涉及到在提示中提供一些思维链演示作为示例。最近的工作,如思维树,指出了探索和自我评估在复杂问题解决的推理步骤选择中的重要性。在本文中,我们提出了Boosting of Thoughts(BoT),这是一种用LLM解决问题的自动提示框架,通过迭代探索和自评估许多思维树,以获得一系列试错推理经验,这将成为解决复杂问题的一种新的提示形式。原创 2024-04-11 09:50:27 · 166 阅读 · 0 评论 -
Puzzle Solving using Reasoning of Large Language Models: A Survey
探索大型语言模型(LLM)在解谜方面的能力,揭示了它们在人工智能中的潜力和挑战,标志着朝着理解它们在复杂推理任务中的适用性迈出了重要一步。这项调查利用了一种独特的分类法——将谜题分为基于规则和无规则的类别——通过各种方法,包括提示技术、神经符号方法和微调,对LLM进行批判性评估。通过对相关数据集和基准的批判性审查,我们评估LLM的性能,确定复杂谜题场景中的重大挑战。我们的发现突出了LLM能力和类人推理之间的差异,特别是在那些需要高级逻辑推理的推理中。原创 2024-04-08 18:25:58 · 155 阅读 · 0 评论 -
Can Large Language Models Reason About Code?
大型语言模型(LLM)已被广泛用于自动化编程任务。通过测试执行评估代码质量来评估它们的能力。然而,正如我们将要展示的那样,代码合成的成功并不意味着代码推理,这对于信任LLM执行涉及程序分析的任务至关重要,例如测试生成和调试。本文介绍了CodeMind,这是一个旨在通过几个归纳推理任务来衡量LLM代码推理能力的框架。CodeMind目前支持三个任务:独立执行推理(IER)、依赖执行推理(DER)和规范推理(SR)。前两个评估模型用于预测任意代码或模型可以正确合成的代码的执行输出。原创 2024-04-05 13:36:59 · 38 阅读 · 0 评论 -
Beyond Lines and Circles: Unveiling the Geometric Reasoning Gap in Large Language Models
大型语言模型(LLM)在数学和算法任务方面表现出越来越强的能力,但其几何推理技能却没有得到充分的探索。我们研究LLM在构造性几何问题解决方面的能力,这是人类数学推理发展的最基本步骤之一。我们的工作揭示了最先进的LLM在这一领域面临的显著挑战,尽管在类似领域取得了许多成功。LLM在目标变量选择方面表现出偏见,并难以处理二维空间关系,经常歪曲和幻觉物体及其位置。为此,我们引入了一个框架,该框架制定了一个基于LLM的多代理系统,通过进行内部对话来增强其现有的推理潜力。原创 2024-04-03 13:06:17 · 56 阅读 · 0 评论
分享