Evaluating Interventional Reasoning Capabilities of Large Language Models

本文是LLM系列文章,针对《Evaluating Interventional Reasoning Capabilities of Large Language Models》的翻译。

摘要

许多决策任务需要估计干预措施对系统不同部分的因果影响。随着从业者考虑使用大型语言模型(LLM)来自动化决策,研究它们的因果推理能力变得至关重要。最近的一项工作评估了LLM检索常识因果事实的能力,但这些评估并没有充分评估LLM如何推理干预措施。受干预在因果推理中的作用的启发,在本文中,我们进行了实证分析,以评估LLM是否能够准确地更新他们对数据生成过程的知识,以应对干预。我们创建了跨越不同因果图(如混淆、中介)和变量类型的基准,并能够研究基于干预的推理。这些基准测试使我们能够分离LLM准确预测因记忆事实或找到其他捷径而导致的变化的能力。我们对四种LLM的分析强调,虽然GPT4模型在预测干预效果方面显示出有希望的准确性,但它们对提示中的干扰因素仍然很敏感。

1 引言

2 前言

3 方法:定义因果推理任务

4 实验

5 相关工作

6 讨论和局限性

本文的目标是引入一个因果推理基准,对LLM在干预后准确预测知识更新的能力进行压力测试,而不会将推理的其他方面(如定量数据的统计推理)混为一谈。我们调查的研究问题表明了一些乐观和谨慎。一方面,在某些情况下,GPT-4似乎能准确预测干预措施如何改变给定的因果关系,另一方面,当提示描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值