Evaluating Interventional Reasoning Capabilities of Large Language Models

UnknownBody

于 2024-07-30 10:20:09 发布

阅读量3

点赞数

分类专栏： LLM Daily LLM Evaluation Causal and Reasoning 文章标签：语言模型人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/140789281

版权

LLM Daily 同时被 3 个专栏收录

173 篇文章 2 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

55 篇文章 1 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Causal and Reasoning

51 篇文章 1 订阅

订阅专栏

本文是LLM系列文章，针对《Evaluating Interventional Reasoning Capabilities of Large Language Models》的翻译。

评估大型语言模型的介入推理能力

摘要
1 引言
2 前言
3 方法：定义因果推理任务
4 实验
5 相关工作
6 讨论和局限性

摘要

许多决策任务需要估计干预措施对系统不同部分的因果影响。随着从业者考虑使用大型语言模型（LLM）来自动化决策，研究它们的因果推理能力变得至关重要。最近的一项工作评估了LLM检索常识因果事实的能力，但这些评估并没有充分评估LLM如何推理干预措施。受干预在因果推理中的作用的启发，在本文中，我们进行了实证分析，以评估LLM是否能够准确地更新他们对数据生成过程的知识，以应对干预。我们创建了跨越不同因果图（如混淆、中介）和变量类型的基准，并能够研究基于干预的推理。这些基准测试使我们能够分离LLM准确预测因记忆事实或找到其他捷径而导致的变化的能力。我们对四种LLM的分析强调，虽然GPT4模型在预测干预效果方面显示出有希望的准确性，但它们对提示中的干扰因素仍然很敏感。

1 引言

2 前言

3 方法：定义因果推理任务

4 实验

5 相关工作

6 讨论和局限性

本文的目标是引入一个因果推理基准，对LLM在干预后准确预测知识更新的能力进行压力测试，而不会将推理的其他方面（如定量数据的统计推理）混为一谈。我们调查的研究问题表明了一些乐观和谨慎。一方面，在某些情况下，GPT-4似乎能准确预测干预措施如何改变给定的因果关系，另一方面，当提示描述

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Evaluating Interventional Reasoning Capabilities of Large Language Models

许多决策任务需要估计干预措施对系统不同部分的因果影响。随着从业者考虑使用大型语言模型（LLM）来自动化决策，研究它们的因果推理能力变得至关重要。最近的一项工作评估了LLM检索常识因果事实的能力，但这些评估并没有充分评估LLM如何推理干预措施。受干预在因果推理中的作用的启发，在本文中，我们进行了实证分析，以评估LLM是否能够准确地更新他们对数据生成过程的知识，以应对干预。我们创建了跨越不同因果图（如混淆、中介）和变量类型的基准，并能够研究基于干预的推理。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。