本文是LLM系列文章,针对《Causal Reasoning and Large Language Models:
Opening a New Frontier for Causality》的翻译。
@TOC
摘要
大型语言模型(LLM)的因果能力是一个有重大争议的问题,对LLM在医学、科学、法律和政策等具有社会影响力的领域的使用具有重要意义。考虑到不同类型的因果推理任务之间的区别,以及结构和测量有效性的纠缠威胁,我们进一步理解了LLM及其因果含义。我们发现,基于LLM的方法在多个因果基准上建立了新的最先进的准确性。基于GPT-3.5和4的算法在成对因果发现任务(97%,增加13分)、反事实推理任务(92%,增加20分)和实际因果关系(在小插曲中确定必要和充分原因的准确率为86%)方面优于现有算法。同时,LLM表现出不可预测的故障模式,我们提供了一些技术来解释它们的稳健性。
至关重要的是,LLM在执行这些因果任务的同时,依赖于与非基于LLM的方法不同且互补的知识来源和方法。具体而言,LLM带来了迄今为止被理解为仅限于人类的能力,例如使用收集的知识生成因果图或从自然语言中识别背景因果上下文。我们设想LLM与现有的因果方法一起使用,作为人类领域知识的代理,并减少人类在建立因果分析方面的努力