【慢工社—论文阅读】LLMs能成为产品调研中合适的被访谈者吗？斯坦福学生团队近期的文献尝试回答这个问题

最新推荐文章于 2025-12-14 14:18:30 发布

原创

最新推荐文章于 2025-12-14 14:18:30 发布 · 1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #论文笔记

Park, J. S., Zou, C. Q., Shaw, A., Hill, B. M., Cai, C., Morris, M. R., Willer, R., Liang, P., & Bernstein, M. S. (2024). Generative agent simulations of 1,000 people. arXiv. https://doi.org/10.48550/arXiv.2411.10109

（本论文共65页=12页论文+支撑材料，通过ChatGPT进行拆解阅读）

概述

本文探讨了一种新颖的生成式代理（Generative Agent）架构，该架构结合了详细的定性访谈和大语言模型（LLMs），用于模拟超过1,000名个体的行为和态度。这些代理旨在通过定性洞察，在多种场景下模拟人类行为，并预测在社会科学调查、人格评估和实验任务中的真实反应。本文的概述图

关键发现

1.预测准确性：

生成式代理在综合社会调查（GSS）问题上表现出显著的预测准确性，实现了85%的标准化准确率，与参与者自身在不同时间点回答的一致性相当。

2.行为洞察：

代理（Agent）成功预测了个体和集体行为，并以高度相关的结果再现了社会科学实验中的人类结果。

3.访谈效率：

与其他数据收集方法相比，访谈数据提供了更丰富和可靠的信息，即使是使用访谈摘要或部分访谈记录时亦是如此。

4.偏差缓解：

该架构减少了在人口统计子群体（如政治意识形态、种族和性别）中的偏差，不同种族和意识形态群体的表

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

取不好名字=

关注关注

16
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

AIGC时代高效阅读论文实操

herosunly的博客

01-21

29万+

今天给大家带来的文章是AIGC时代高效阅读论文实操，希望能对学习大模型的同学们有所帮助。文章目录 1. 前言 2. 方法论 3. 实操演示 3.1 实操一 3.2 实操二

论文阅读：arxiv 2025 How Likely Do LLMs with CoT Mimic Human Reasoning?

CSPhD-winston的博客

06-13

1178

这篇论文揭穿了LLM的“小聪明”：它们用CoT时可能不是在认真推理，而是先猜答案再编过程。要让模型像人一样思考，不能只靠扩大模型或调参，得从因果关系入手，让推理步骤真正“说了算”。

参与评论您还未登录，请先登录后发表或查看评论

1 条评论

CSDN-Ada助手 2024.12.03
你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

论文分享_数字灵魂

谢彦的技术博客

12-01

1158

在探索价值观和个性的过程中，看到了我执和因果。

谷歌 DeepMind 利用Agent预测人类行为，准确率高达 85%！

m0_59164304的博客

12-03

1604

近日谷歌 DeepMind 也发表了在这一领域的最新研究《Generative Agent Simulations of 1,000 People[1]》，过Agent系统预测社会调查问题的人类反应，为社会行为研究带来革命性的变化。传统的人口统计学分析往往充满偏见，容易产生刻板印象。而这个新系统的独特之处在于:减少种族和文化偏见利用Agent更准确地模拟个人行为为社会科学研究提供更加精准和中立的响应预测方法。

Generative Agent Simulations of 1,000 People

01-05

AI can now create a replica of your personality

Generative Agent Simulations of 1,000 People翻译

nopSled

12-17

177

人类行为模拟（能够跨领域复制人类行为的通用计算代理）的前景广阔，可以广泛应用于政策制定和社会科学。我们提出了一种新的 Agent 架构，可以模拟 1,052 个真实个体的态度和行为——将大语言模型应用于有关他们生活的定性访谈，然后测量这些 Agent 如何很好地复制它们所代表的个体的态度和行为。生成式 Agent 复制参与者在综合社会调查中的回答的准确率是参与者两周后复制自己答案的 85%，并且在预测实验复制中的性格特征和结果方面表现相当。

2401_85390073的博客

12-06

907

大模型领域的发展日新月异，每天都有许多有趣的论文值得深入品读。下面是本期觉得比较有意思的论文：1、亚马逊Nova大模型家族：AI技术的新里程碑2、1000个人的数字分身：AI如何精准模拟人类行为？1、亚马逊Nova大模型家族：AI技术的新里程碑亚马逊发布了Nova模型家族，与传统模型不同，Nova不仅仅是又一个AI模型，而是一个全面的、定制化的智能解决方案生态系统。该家族包括Pro、Lite、Micro、Canvas和Reel五个不同定位的模型，覆盖从文本到多模态内容生成的广泛应用场景。

大模型提示工程在智能医疗科研中的应用：架构师分享的6个创新研究方向

大模型应用工坊

07-26

916

在人工智能与医疗健康深度融合的今天，大语言模型(LLMs)正逐渐成为推动医学科研创新的核心引擎。然而，这些强大模型的实际效能在很大程度上取决于我们如何与其"对话"——这正是提示工程的价值所在。本文作为资深AI架构师的实践分享，系统剖析了提示工程在智能医疗科研中的革命性潜力，重点阐述了6个极具前景的创新研究方向：医学文献知识挖掘、临床试验智能设计、多模态医学数据融合、个性化治疗方案生成、医学教育与培训革新，以及医疗伦理与安全防护。

51c大模型~合集86

whaosoft~aiotの开发板商城

12-09

2818

我自己的原文哦~ https://blog.51cto.com/whaosoft/12772867拆解高复杂运筹问题的砖石，打破数据稀缺的瓶颈，中科大提出高质量运筹数据生成方法论文作者刘昊洋是中国科学技术大学 2023 级硕士生，师从王杰教授，主要的研究方向为强化学习与学习优化理论及方法。他曾在 NeurIPS、ICML 和 ICLR 等人工智能顶级会议上发表论文三篇，曾获中国科学技术大学黄渝纪念奖学金、华为奖学金等荣誉。近日，中科大王杰教授团队（MIRA Lab）提出了矩阵分块分解技术生成数学优化问题

Sheila Teo分享GPT-4提示工程竞赛胜利经验，DynamiCrafter工具实现图转超逼真动态视频

热门推荐

一支烟一朵花

06-14

1万+

本文介绍了大模型训练、推理的基本逻辑，并以Transformer为例，分析了其特点和优势。来源：https://www.infoq.cn/article/c965120d46e5bc4d5d790d1a7运营大语言模型应用程序提出了一些在运营传统软件系统时熟悉的问题，但通常有新的变化来保持新鲜感。大语言模型应用程序还提出了全新的问题。我们将这些问题及其答案分为四部分：数据、模型、产品和团队。

【论文阅读】LLMs Get Lost In Multi-Turn Conversation：大模型多轮对话迷航现象研究

熵数实验室

05-29

2177

论文《LLMs Get Lost In Multi-Turn Conversation》发现了一个严重但鲜有研究的现象：顶尖的开源和闭源大模型在多轮对话中的表现显著低于单轮对话，平均下降幅度高达39%。通过分析超过20万次模拟对话，研究者们发现了一个引人深思的结论：**当大模型在对话中走错路时，它们会迷失方向且难以自我纠正**。

【论文阅读】DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

qq_41502855的博客

01-21

4514

此外，DeepSeek-R1-Zero在MATH-500上的得分为95.9%，在GPQA Diamond上的得分为73.3%，在LiveCodeBench上的得分为50.0%。：DeepSeek-R1-Distill-Qwen-7B在AIME 2024上的得分为55.5%，超过QwQ-32B-Preview。DeepSeek-R1-Distill-Qwen-32B在AIME 2024上的得分为72.6%，在MATH-500上的得分为94.3%，在LiveCodeBench上的得分为57.2%。

AGI之Agent：《Generative Agents: Interactive Simulacra of Human Behavior生成代理：人类行为的交互模拟》翻译与解读

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

11-28

2313

AGI之Agent：《Generative Agents: Interactive Simulacra of Human Behavior生成代理：人类行为的交互模拟》翻译与解读目录《Generative Agents: Interactive Simulacra of Human Behavior》翻译与解读 Abstract 9 CONCLUSION 《Generative Agents: Interactive Simulacra of Human Behavior》翻译与解读地址

论文阅读《Generative Agents: Interactive Simulacra of Human Behavior》

weixin_49744683的博客

01-31

1018

文章重点架构了一个“小镇”，在小镇里的“人物”，可以理解为NPC，都是 Generative Agents，这些人物属于智能体，他们能够相互沟通交流，并且知道自己与其他智能体之间的关系，比如父子、邻居等。且对发生的事情存在记忆，能根据周围环境的变化，做出行动（用户设置厨房炉子着火，人物会及时产生动作去关掉）。1.Generative Agents：模拟人类行为，根据小镇“人物”的生活的变化，根据周围环境动态调整行动。以下是对原文重点的理解与解读，如有偏差，欢迎讨论~~3.沙箱实验，小镇的构建。

【论文阅读】多密钥低通信轮次的联邦学习安全聚合

wzx_442011334的博客

12-10

621

做到多密钥环境下的“单轮、无交互聚合”；支持任意数量的客户端掉线；安全性强：服务器与客户端均无法恢复其他实体的更新；精确加解密；无需可信第三方、无需多服务器架构；

十二月第二周周报（论文阅读）

最新发布

m0_62847106的博客

12-14

716

蓝藻水华频发对湖泊生态与水环境安全构成严重威胁.Landsat、Sentinel 等遥感平台因时间分辨率较低,难以实现蓝藻水华的连续动态监测;

【论文阅读21】-基于大语言模型与领域知识图谱集成的CNC智能故障诊断

Ma040713的博客

12-09

986

摘要：本研究提出了一种融合大语言模型(LLM)与知识图谱(KG)的智能数控机床(CNC)故障诊断系统。针对传统专家系统知识组织效率低、适应性差等问题，构建了包含设备、报警、现象等7类实体的多源知识图谱(1549个实体)，整合PLC代码、维修工单和传感器数据。通过子图检索增强生成(KG-RAG)机制约束LLM推理，结合"人在回路"动态学习实现知识更新。实验表明，该系统诊断准确率达83.29%，显著优于传统方法和初级工程师，验证了量化模型(Qwen2.5-7b)在工业场景的可行性。研究为多模

TDT Loss Takes It All论文阅读

weixin_64787709的博客

12-11

838

本文提出了 TDT Loss 这一无参数、即插即用的优化目标，将 TDT 学习整合到非自回归模型中，能够兼顾自回归和非自回归方法的优点。TDT Loss 使用符号不一致比例作为自适应权重 ρ ，动态地平衡了对未来序列预测的学习和对细粒度 TDT 拟合的学习。 TDT Loss 以可忽略不计的额外成本（计算复杂度 O（H），内存 O（1）显著提高了 SOTA 非自回归模型的预测性能。

论文阅读 SAM 3: Segment Anything with Concepts

2502_91183859的博客

12-14

809

数据引擎从带噪声的媒体-短语-掩码伪标签入手，通过人**工和AI验证器检查掩码的质量和完整性，筛选出标记正确的样本，并识别出具有挑战性的错误案例。我们将PCS任务形式化为：以文本和/或图像示例作为输入，预测与该概念匹配的每个对象的实例掩码和语义掩码，同时在视频帧中保持对象的身份一致性）。在获得初始的掩码集（或掩码片段）后，SAM 3允许使用正向和负向点击来优化单个掩码（片段）。具体来说，给定用户的点击，我们应用提示编码器对其进行编码，并将编码后的提示输入到掩码解码器中，以预测调整后的掩码。

【论文阅读】Effective Vulnerable Function Identification based on CVE Description Empowered by LLMs

07-08

### 方法概述基于CVE描述并利用大语言模型（LLMs）识别脆弱函数的有效方法主要依赖于自然语言处理和代码分析的结合。该方法旨在通过解析CVE描述中的信息，将漏洞与特定的函数或代码段关联起来，并借助LLMs的强大语义理解能力提升识别的准确性和效率。 ### 数据准备与预处理首先需要收集包含CVE描述、补丁信息以及对应源代码的数据集。CVE描述通常提供漏洞的上下文信息，而补丁信息则可以用来定位具体的漏洞代码位置。这些数据经过清洗后，可提取出漏洞相关的自然语言描述和代码片段用于后续分析[^1]。 ### 漏洞描述嵌入与代码表示学习接下来，使用大语言模型对CVE描述进行编码，生成高维向量表示。这种表示能够捕捉到漏洞的语义特征，例如漏洞类型、受影响组件等信息。同时，针对代码部分，采用代码专用的语言模型（如CodeBERT）对函数级别的代码进行编码，以生成代码的向量表示。这种方法能够在同一向量空间中对自然语言描述和代码进行比较，从而实现漏洞描述与代码的匹配[^1]。 ### 匹配与排序机制在得到CVE描述和代码的向量表示之后，可以通过相似度计算（如余弦相似度）来衡量两者之间的匹配程度。为了进一步提高匹配精度，可以引入排序模型（如神经网络排序器），根据多维度特征对候选函数进行打分和排序，最终选出最有可能包含漏洞的函数。这一过程可以显著减少误报率并提升识别效果[^1]。 ### 实验评估与优化实验表明，上述方法在多个基准数据集上均取得了较好的性能。通过对比不同模型和特征组合的效果，研究人员发现结合自然语言描述和代码表示的方法优于仅依赖代码或仅依赖文本的传统方法。此外，通过对模型进行微调和引入领域知识（如安全规则库），可以进一步提升识别的准确性[^1]。 ### 代码示例以下是一个简单的Python代码示例，展示了如何使用Hugging Face的Transformers库来加载预训练的CodeBERT模型，并对代码进行编码： ```python from transformers import RobertaTokenizer, RobertaModel import torch # 加载预训练的CodeBERT模型和对应的tokenizer tokenizer = RobertaTokenizer.from_pretrained("microsoft/codebert-base") model = RobertaModel.from_pretrained("microsoft/codebert-base") # 示例代码函数 code_function = """ def vulnerable_function(input): if input == "malicious": execute_shell_command(input) """ # 对代码进行tokenize inputs = tokenizer(code_function, return_tensors="pt", padding=True, truncation=True) # 获取模型输出 with torch.no_grad(): outputs = model(**inputs) # 提取[CLS]标记的隐藏状态作为代码的向量表示 code_embedding = outputs.last_hidden_state[:, 0, :].squeeze().numpy() print("Code Embedding:", code_embedding) ``` 该示例展示了如何使用CodeBERT模型对代码函数进行编码，生成其向量表示。此向量可用于后续的相似度计算或分类任务。