本文是LLM系列文章,针对《Towards a Psychology of Machines: Large Language Models Predict Human Memory》的翻译。
摘要
尽管缺乏人类认知的基础,但大型语言模型(LLM)在各种任务中都表现出了非凡的能力。这就提出了一个问题:除了简单地模仿人类语言模式之外,这些模型还能深入了解人类认知的机制吗?这项研究探讨了ChatGPT在基于语言的记忆任务中预测人类表现的能力。在文本理解理论的基础上,我们假设通过在歧义句之前加上与上下文相关的信息,可以帮助识别歧义句(例如,“因为比尔喝酒从来没有放在家里”)。参与者,包括人类和ChatGPT,被呈现成对的句子。第二句总是一个花园小路句子,被设计成天生模棱两可,而第一句要么提供了一个合适的语境(例如,“比尔患有慢性酒精中毒”),要么提供了不合适的上下文(例如,”比尔喜欢打高尔夫球“)。我们测量了人类和ChatGPT对句子相关性的评分,ChatGPT对于花园小路句子的可记忆性评分,以及人类对于花园小路语句的自发记忆。研究结果显示,ChatGPT的评估与人类表现之间有着惊人的一致性。尽管ChatGPT的内部机制可能与人类的认知存在显著差异,但被ChatGPT认为更相关、更令人难忘的句子确实更容易被人类记住。这一发现通过使用同义词的稳健性检查得到了证实,突显了生成人工智能模型准确预测人类表现的潜力。我们讨论了这些发现对在心理学理论发展中利用LLM和更深入地理解人类认知的更广泛影响。