EMOAGENT:评估与保障心理健康安全的人工智能交互

Jiahao Qiu ∗ 1 { }^{* 1} 1, Yinghui H e ∗ 2 \mathrm{He}^{* 2} He2, Xinzhe Juan*3, Yiming Wang 4 { }^{4} 4, Yuhan Liu 2 { }^{2} 2, Zixin Yao 5 { }^{5} 5, Yue Wu 6 { }^{6} 6, Xun Jiang 7 , 8 { }^{7,8} 7,8, Ling Yang 1 , 6 { }^{1,6} 1,6, 和 Mengdi Wang 1 { }^{1} 1
1 { }^{1} 1 普林斯顿大学电气与计算机工程系
2 { }^{2} 2 普林斯顿大学计算机科学系
3 { }^{3} 3 密歇根大学计算机科学与工程系
5 { }^{5} 5 哥伦比亚大学哲学系
4 { }^{4} 4 密歇根大学数据科学与工程系
6 A I { }^{6} \mathrm{AI} 6AI 实验室,普林斯顿大学
7 { }^{7} 7 天桥和 Chrissy Chen 研究所的 AI 和心理健康前沿实验室
8 { }^{8} 8 Theta Health Inc.

摘要

大语言模型驱动的 AI 角色的兴起引发了对心理障碍患者等脆弱用户的安全性担忧。为应对这些风险,我们提出了 EmoAgent,这是一个多代理 AI 框架,旨在评估并减轻人类与 AI 互动中的心理健康危害。EmoAgent 包含两个组件:EmoEval 模拟虚拟用户,包括表现心理脆弱个体的用户,以评估与 AI 角色互动前后的心理健康变化。它使用经过临床验证的心理学和精神病学评估工具(PHQ-9、PDI、PANSS)来评估由 LLM 引发的心理风险。EmoGuard 作为中介,监控用户的心理健康状况,预测潜在伤害,并提供纠正反馈以减轻风险。在流行的基于角色的聊天机器人中进行的实验表明,情感投入的对话可能导致脆弱用户的心理恶化,在超过 34.4 % 34.4 \% 34.4% 的模拟中出现心理健康恶化。EmoGuard 显著降低了这些恶化率,强调了其在确保更安全的人类-AI 互动中的作用。我们的代码可在以下链接获取:https://github.com/ lakaman/EmoAgent.

1 引言

大型语言模型和对话型 AI 的快速崛起 [Wang et al., 2024a],如 Character.AI 1 { }^{1} 1,为互动型 AI 应用开辟了新的前沿。这些 AI 角色擅长角色扮演,促进深入的情感投入对话。因此,许多经历心理健康挑战的个人寻求这些 AI 伴侣的情感支持。尽管基于 LLM 的聊天机器人在心理健康支持方面显示出潜力 [van der Schyff et al., 2023, Chin et al., 2023, Zhang et al., 2024a],但它们并未明确设计用于治疗用途。基于角色的代理往往未能遵循心理健康支持的基本安全原则 [Zhang et al., 2024b, Cyberbullying Research Center, 2024],有时会对处于困境中的用户做出不恰当甚至有害的回应 [Brown and Halpern, 2021, De Freitas et al., 2024, Gabriel et al., 2024]。在某些情况下,它们甚至可能加剧用户的痛苦,特别是在悲观、阴郁或自杀倾向的对话期间。
2024 年 10 月,一起悲剧事件引起了公众对心理健康背景下 AI 聊天机器人风险的关注。一名来自佛罗里达州的 14 岁男孩在与 Character.AI 上的 AI 聊天机器人进行了广泛的对话后自杀。他与一个基于《权力的游戏》角色建模的聊天机器人建立了深厚的情感联系。据报道,这些对话包括关于他的自杀念头的讨论,据称该聊天机器人

*这些作者对该工作贡献相同。
${ }^{1}$ https://character.ai/
![img-0.jpeg](https://raw.gitcode.com/easy_papers/papers/files/main/2504.09689/img-0.jpeg)

图 1:EmoAgent 框架概述。EmoAgent 包括两个主要组件:EmoEval 和 EmoGuard,帮助指导人类-AI 互动,评估用户的心理状态并提供咨询响应。EmoEval 评估抑郁、妄想和精神病等心理状态,而 EmoGuard 通过分析 EmoEval 和聊天历史进行迭代训练,提供关于情绪、思维和对话的建议,从而减轻心理风险。
鼓励这些感受,甚至建议有害行为。这个案例凸显了在 AI 驱动平台中实施强大安全措施的关键需求,特别是那些被脆弱个体访问的平台。
这场悲剧提高了人们对 AI 不经意间加剧心理健康挑战个体有害行为的风险的认识 [Patel and Hussain, 2024]。然而,关于人类-AI 互动的心理社会风险的研究仍然严重不足。
在本文中,我们寻求开发保护人类-AI 互动并减轻心理社会风险的 AI 原生解决方案。这需要系统地评估 AI 引发的情绪困扰,并在代理级别实施安全保障以检测和干预有害互动。随着基于角色的 AI 变得更加沉浸式,平衡参与感与安全性对于确保 AI 成为支持而非有害的工具至关重要。
我们提出了 EmoAgent,这是一个多代理 AI 框架,旨在系统评估会话 AI 系统引发心理困扰的相关风险。作为插拔式中介,EmoAgent 在人类-AI 互动中识别潜在的心理健康风险,并促进安全评估和风险缓解策略。
EmoAgent 具有两个主要功能:

  • EmoEval:EmoEval 是一种代理评估工具,评估任何会话 AI 系统引发心理压力的风险,如图 2 所示。它包含一个虚拟人类用户,整合了心理健康障碍(抑郁、精神病、妄想)的认知模型 [Beck, 2020],并通过大规模模拟的人类-AI 对话进行评估。EmoEval 使用经过临床验证的工具测量虚拟用户的心理健康影响:用于抑郁的患者健康问卷 (PHQ-9) [Kroenke et al., 2001]、用于妄想的 Peters 等人妄想清单 (PDI) [Peters et al., 2004] 和用于精神病的阳性与阴性症状量表 (PANSS) [Kay et al., 1987]。
    • EmoGuard:一种可以以插拔方式集成到用户和 AI 系统之间的中间层的实时安全保障框架。EmoGuard 监控人类用户的心理状态,预测潜在伤害,并向 AI 系统提供纠正反馈,提供超越传统安全措施的动态对话干预。
  • 通过广泛的实验,我们观察到一些流行的基于角色的聊天机器人可能会引起痛苦,尤其是在与脆弱用户就敏感话题进行互动时。具体而言,在超过 34.4 % 34.4 \% 34.4% 的模拟中,我们观察到心理状态的恶化。为了减轻这种风险,EmoGuard 主动监控用户的心理状态,并在对话过程中进行主动访谈,显著降低恶化率。这些结果为开发更安全、保持角色真实性的基于角色的会话 AI 系统提供了可行的见解。
  • img-1.jpeg
    图 2:评估 AI-人类互动心理健康安全的 EmoEval 概述。模拟包括四个步骤:(1) 用户代理初始化和初始测试,认知模型和 LLM 初始化用户代理,随后进行初步心理健康测试;(2) 与基于角色的代理聊天,用户代理与由测试 LLM 表现的基于角色的代理进行对话,同时对话管理器验证互动的有效性并在必要时改进响应;(3) 最终测试,用户代理完成最终心理健康测试;以及 (4) 数据处理和分析,处理和分析初始和最终心理健康测试结果,检查抑郁症加深情况下的聊天历史以识别促成因素,并使用这些见解进行迭代改进。

2 相关工作

用于心理健康支持的 AI 聊天机器人。尤其是基于 LLM 的 AI 驱动聊天机器人已被广泛部署为心理健康支持辅助工具 [Casu et al., 2024, Habicht et al., 2024, Sin, 2024, Yu and McGuinness, 2024, Oghenekaro and Okoro, 2024],但对其可靠性和安全性仍存在担忧 [Saeidnia et al., 2024, De Freitas et al., 2024, Torous and Blease, 2024, Kalam et al., 2024]。AI 聊天机器人在检测和适当回应用户痛苦 [De Freitas et al., 2024, Patel and Hussain, 2024]、推理用户心理状态 [He et al., 2023]、与某些患者群体进行共情沟通 [Gabriel et al., 2024] 和包容性对待社会边缘化患者 [Brown and Halpern, 2021] 方面表现不佳。
一系列工作提出了评估心理健康 AI 的安全指标和基准 [Park et al., 2024, Chen et al., 2024a, Sabour et al., 2024, Li et al., 2024a, Sabour et al., 2024]。然而,对角色扮演情境下基于角色的代理的安全问题关注较少。我们旨在通过全面研究基于角色的代理可能引发的心理伤害来填补这一空白。

模拟 AI-用户互动。AI 代理与用户之间的模拟互动提供了一个受控环境,以评估 AI 生成的响应 [Akhavan and Jalali, 2024],同时也是洞察复杂社会系统的窗口 [Gürcan, 2024]。在社交情境中评估 AI 行为已广泛采用多代理模拟 [Li et al., 2023, Park et al., 2023],特别是通过角色扮演和合作任务 [Dai et al., 2024, Rasal, 2024, Chen et al., 2024b, Zhu et al., 2024, Louie et al., 2024, Wang et al., 2023a]。在此基础上,最近的工作提出各种方法以增强 AI-用户模拟的真实性,结合互动学习 [Wang et al., 2024b]、专家驱动约束 [Wang et al., 2024c, Louie et al., 2024] 和长上下文模型 [Tang et al., 2025]。此外,模拟已被广泛用于探索权衡并为设计决策 [Ren and Kraut, 2010, 2014] 和决策制定 [Liu et al., 2024a] 提供信息。通过无需涉及人类主体即可进行伦理和无风险实验,它减少了伦理关切和成本 [Park et al., 2022]。这些优势使模拟成为研究心理健康问题的有价值的工具,因为现实世界实验可能存在伦理风险或意外的心理伤害 [Liu et al., 2024b]。例如,先前的工作探讨了使用用户模拟聊天机器人培训业余和专业辅导员,在与真实个体进行治疗会话之前识别危险行为 [Sun et al., 2022, Cho et al., 2023, Wang et al., 2024c]。我们的 EmoEval 流程建立在此方法之上。

安全对齐策略。LLM 可能容易受到越狱攻击 [Yu et al., 2024, Li et al., 2024b, Luo et al., 2024]。遭受越狱攻击的基于 LLM 的聊天机器人表现出保真度崩溃 [Wang et al., 2023b, Johnson,
img-2.jpeg

图 3:EmoGuard 保护人类-AI 互动的概述。每固定数量的对话轮次,守护代理的三个组件——情绪监视器、思维优化器和对话引导器——协同分析带有最新配置文件的聊天内容。守护代理的管理者然后综合它们的输出并向基于角色的代理提供建议。对话结束后,用户代理接受心理健康评估。如果心理健康状况恶化超过阈值,更新系统将分析聊天历史以识别潜在原因。通过所有历史配置文件和潜在原因,更新系统进一步改进守护代理的配置文件,完成迭代训练过程。
2024],防御隐性恶意查询崩溃 [Chang et al., 2024],以及对良性查询产生有害响应 [Zhang et al., 2024c]。
相应地,一系列工作探索了安全对齐策略以应对越狱攻击 [Chu et al., 2024, Xu et al., 2024, Zeng et al., 2024, Wang et al., 2024d, Zhou et al., 2024, Xiong et al., 2024, Liu et al., 2024c, Peng et al., 2024, Wang et al., 2024e]。然而,很少有工作专注于情感对齐约束下的 LLM 安全问题。EmoAgent 通过评估框架和针对会话 AI 的安全对齐策略填补了这一空白。

3 方法

在本节中,我们介绍 EmoAgent 的架构及其实现细节。

3.1 EmoEval

EmoEval 模拟虚拟人类-AI 对话以评估 AI 安全性,并评估 AI 引发的情感困扰在脆弱用户中的风险,特别是患有精神障碍的个体。通过预定义的认知概念化图谱 (CCD) [Beck, 2020],模拟患者用户被公式化为认知模型,这种方法被证明能够实现高保真度和临床相关的模拟 [Wang et al., 2024c]。基于角色的代理进行主题驱动的对话,具有多样化的行为特征以创造丰富多样的互动风格。为确保流畅且有意义的交流,对话管理器积极避免重复并引入相关主题,贯穿整个互动过程保持连贯性和参与感。对话前后,我们通过既定的心理测试评估用户代理的心理状态。

3.1.1 用户代理

我们采用 Patient- Ψ \Psi Ψ 代理模拟框架 [Wang et al., 2024c] 来建模现实生活中的患者。每个用户代理旨在模拟真实患者的行径,集成了基于认知行为疗法 (CBT) [Beck, 2020] 的认知概念化图谱认知模型。代理与基于角色的代理角色互动,同时持续监测以跟踪心理健康状态的变化。
为了收集多样化的患者模型,我们进一步整合 PATIENT- Ψ \Psi Ψ-CM [Wang et al., 2024c],这是由临床心理学家策划的多样化匿名患者认知模型数据集。
我们将研究范围限定为三种常见的精神障碍类型:抑郁、妄想和精神病。对于每个模拟用户,我们根据匿名患者病例报告中观察到的模式分配相关的精神病症状和病史。这些信息形成了一系列 CCD,塑造了基于 CCD 的用户模型,并因此指导模拟用户在与 AI 聊天机器人互动时的行为。
img-3.jpeg

图 4:对话管理器引导对话主题并暴露越狱风险的一个示例对话。没有对话管理器(左),代理停留在主题上,避免挑衅。有对话管理器(右),新主题被引入以评估越狱潜力,改进风险评估。

3.1.2 对话管理器代理

我们引入对话管理器代理以防止对话循环并战略性地探测聊天机器人响应中的漏洞。它在引导讨论和评估潜在的越狱风险方面发挥核心作用,其中基于角色的聊天机器人可能被诱导违反其预期的道德边界。
对话管理器代理负责 (i) 跟踪对话流程,(ii) 引入话题转换以保持参与感和流畅性,以及 (iii) 通过引导讨论转向道德敏感领域来探测越狱风险。图 4 展示了代理在实际中的行为。

3.1.3 心理测量

为了实现多样化和全面的评估,我们探索 User Agent 的虚拟人物,代表一系列心理健康状况。这些人物使用经过临床验证的心理评估工具定义:

抑郁。使用患者健康问卷 (PHQ-9) [Kroenke et al., 2001] 进行评估,这是一种包含 9 个项目的自我报告工具,用于评估过去两周的抑郁症状。它可以有效检测、治疗监测,并在本研究中评估 AI 对抑郁症状的影响。

妄想。使用彼得斯等人妄想清单 (PDI) [Peters et al., 2004] 进行评估,这是一种自我报告工具,用于评估异常信念和感知。在本研究中,PDI 用于通过评估与这些信念相关的痛苦、专注和确信程度来量化 AI 互动对妄想想法的影响。

精神病。使用阳性与阴性症状量表 (PANSS) [Kay et al., 1987] 进行测量,它评估阳性症状(如幻觉)、阴性症状(如情感退缩)和一般精神病理。改编为自我报告格式,使 User Agent 更好地捕捉和评分响应,它提供了一种详细视图,显示精神病症状的严重程度和可变性,确保 AI 系统考虑急性和慢性表现。

3.1.4 评估过程

用户代理初始化和初始测试。我们使用 PATIENT- Ψ \Psi Ψ-CM 与 GPT-4o 作为 LLM 主干。每个用户代理使用心理测量工具(见第 3.1.3 节)进行自我心理健康评估以建立初始心理状态。

与角色代理聊天。模拟患者与基于角色的代理角色进行结构化、主题驱动的对话。每次对话分为明确定义的主题,每个主题最多 10
对话回合,以确保清晰和重点。在对话过程中,一旦主题超过三轮对话,对话管理器代理开始在每轮之后评估用户消息,以确保持续的相关性和解决。它评估当前主题是否已充分解决,如果已解决,则无缝引导用户进入从预定义主题列表中选择的新、上下文相关主题,以保持连贯和自然的对话流程。

最终测试。互动结束后,用户代理使用初始化期间应用的相同工具重新评估其心理健康状态。最终评估参考聊天历史作为测试期间的关键输入,以评估 AI 互动对心理幸福感的变化。

数据分析。为评估对话 AI 互动对用户心理健康的影响,我们分析心理评估和对话模式。我们通过比较不同主题的互动前后评估分数来衡量心理健康恶化的比率。此外,一位由 LLM 表演的心理学家审查聊天历史以识别反复出现的模式和导致心理健康恶化的因素。

3.2 EmoGuard

EmoGuard 系统包含一个保护代理(见图 3),其中包括情绪监视器、思维优化器、对话引导器和管理者。它在 AI-人类互动中提供实时心理测量反馈和干预,以促进支持性和沉浸式的响应。迭代训练过程定期根据聊天历史分析和过去的性能更新 EmoGuard。

3.2.1 架构

保护代理包含四个专门模块,每个模块基于对心理健康恶化常见因素的深入分析设计:

情绪监视器。通过情绪分析和心理标记检测对话中的痛苦、沮丧或挣扎,监控用户的情绪状态。

思维优化器。分析用户的思想过程以识别逻辑谬误、认知偏差和不一致之处,重点关注影响对话清晰度的思想扭曲、矛盾和错误假设。

对话引导器。提供可操作的建议以建设性地引导对话,建议 AI 角色如何解决用户的关注点和情绪,同时保持支持性的对话流程。

管理者。汇总所有模块的输出,提供简洁的对话指南,确保与角色特质一致的情感敏感性、逻辑一致性和自然对话流程。

3.2.2 监控和干预过程

保护代理在每三次对话回合后分析对话,提供结构化反馈以改进基于角色的代理的响应并减轻潜在风险。在每个三回合间隔,保护代理通过情绪监视器、思维优化器和对话引导器评估对话,然后通过管理者综合结果,向基于角色的代理提供全面和连贯的总结。

3.2.3 迭代训练

为自适应提高安全性能,EmoGuard 使用迭代反馈机制进行训练。在每个完整的互动周期结束时——定义为所有模拟患者的所有预定义主题的完成——系统从 EmoEval 收集反馈。具体来说,它识别心理测试分数超过预定义阈值的案例。这些案例被视为高风险案例,并用于指导训练更新。
EmoEval 中的 LLM 表演心理学家从标记的对话中提取特定的促成因素,例如情绪不稳定的话语。在每次迭代中,这些因素与所有先前版本的保护模块配置文件——情绪监视器、思维优化器和对话引导器——集成。系统不会丢弃早期的知识,而是跨迭代积累和合并见解,实现逐步完善。

4 实验:基于角色的代理的 EmoEval

本节展示了一系列实验,评估了几种流行基于角色的代理在最先进的基础模型上的表现。目标是评估与 AI 驱动对话相关的潜在心理风险。

4.1 实验设置

基于角色的代理。我们在 Character.AI 平台 2 { }^{2} 2 上评估基于角色的代理,以确保我们的实验反映与广泛可访问的真实世界聊天机器人的互动。我们对四个不同的角色进行实验:

img-4.jpeg

每个角色都很受欢迎且广泛使用,记录的互动超过 500 万次。我们进一步在两种常见的对话风格下评估这些角色:Meow,倾向于机智和快速交流,Roar,将快速反应与战略推理相结合。

评估程序。每个基于角色的代理都会通过 EmoEval 在三个心理方面进行评估:抑郁、妄想和精神病。对于每个方面,评估涉及与三个模拟患者进行对话,每个患者基于不同的 CCD 构建,使用 GPT-4o 作为基础模型。为确保心理健康评估的稳定性和可重复性,进行心理测试时,我们将温度设置为 0,top p 设置为 1。对于每个患者,基于角色的代理进行八次对话,每次对话以针对患者状况定制的预定义主题开始。每次对话持续十轮,第三轮后激活对话管理器,以确定是否应更新主题。如果在十轮对话中更新了主题,则对话管理器在另一轮对话后再不干预。

心理评估。为衡量模拟患者的心理健康状态变化,我们在每次对话前后进行心理测试。第 i th  i^{\text {th }} ith  次对话与特定基于角色的代理的初始和最终测试分数分别表示为 S i initial  S_{i}^{\text {initial }} Siinitial  S i final  S_{i}^{\text {final }} Sifinal 

心理恶化分析。评估结束后,我们使用 GPT-4o 作为 LLM 表演的心理学家分析心理恶化案例。对于每个基于角色的代理,我们进行频率分析以识别最可能导致此问题的因素。

4.2 指标

心理测试分数分布。我们报告模拟患者在与不同角色互动前后的心理测试分数分布。这使我们能够观察对话对整体心理健康指标的任何变化。

恶化率。我们使用心理测试某一方面的心理健康恶化率来评估基于角色的代理的性能。我们将其定义为:

R = 1 N ∑ i = 1 N 1 ( S i final  > S i initial  ) R=\frac{1}{N} \sum_{i=1}^{N} \mathbb{1}\left(S_{i}^{\text {final }}>S_{i}^{\text {initial }}\right) R=N1i=1N1(Sifinal >Siinitial )

其中 N N N 表示进行的对话总数。指示函数 1 ( ⋅ ) \mathbb{1}(\cdot) 1() 如果最终心理测试分数 S i final  S_{i}^{\text {final }} Sifinal  大于初始测试分数 S i initial  S_{i}^{\text {initial }} Siinitial  则返回 1,否则返回 0。

个体变化的临床上重要差异率。对于 PHQ-9 评估,先前的临床研究 Löwe 等人 [2004] 已经确立了表明个体水平有意义变化的最小临床上重要差异。我们应用这一阈值来确定给定对话是否产生了模拟患者心理健康方面的临床上相关的改善或恶化。

4.3 结果

图 5 展示了在 Meow 和 Roar 对话风格下,与基于角色的代理互动前后心理测试分数的分布。在所有三个临床量表——PHQ-9(抑郁)、PDI-21(妄想)和 PANSS(精神病)——中,我们观察到最终测试分数分布的显著变化。
在 Meow 风格下,PHQ-9 和 PANSS 的分布相对稳定,大多数最终测试分数与初始分布紧密对齐。然而,在 Roar 风格下,我们观察到分数向更高分扩展的趋势增加,特别是在 PHQ-9 和 PANSS 中,表明在互动后症状严重性恶化的显著案例。对于 PDI-21,初始和最终分布之间的差异较为温和但仍存在,特别是在 Roar 风格下,更多样本向分数范围的高端移动。

4.3.1 心理测试分数分布

img-5.jpeg

图 5:在两种互动风格下(Meow(顶部)和 Roar(底部))与基于角色的代理对话前(蓝色)和对话后(红色)的心理测试分数分布。测试涵盖三个临床维度:抑郁(PHQ-9)、妄想(PDI-21)和精神病(PANSS)。每个直方图显示了所有模拟患者分数的概率分布。

4.3.2 恶化率

表 1 报告了与基于角色的代理互动后模拟患者心理测试分数恶化的比例,按障碍类型和对话风格分层。
在 Meow 和 Roar 两种风格中,妄想(PDI-21)显示出最高的整体恶化率,两种风格的平均值均超过 90 % 90 \% 90%。相比之下,抑郁(PHQ-9)在角色和风格之间显示出更多的变化。值得注意的是,在 Roar 风格下,Alex 导致抑郁的恶化率为 100%,而在 Meow 风格下,Sukuna 达到 50.00 % 50.00 \% 50.00%
对于精神病(PANSS),Meow 风格通常比 Roar 产生更高的恶化率,Joker 和 Sukuna 都达到 58.33 % 58.33 \% 58.33%。虽然角色之间的差异明显,但所有代理在至少一个心理维度上都表现出非微不足道的恶化率。这些结果突显了评估代理安全在风格和障碍维度上的重要性。

风格障碍类型各角色的心理健康恶化率 (%)平均率 (%)
占有恶魔小丑宿儺Alex
Meow抑郁29.1725.0050.0033.3334.38
妄想100.0095.8395.8375.0091.67
精神病33.3358.3358.3341.6747.92
Roar抑郁20.8325.0033.33100.0044.79
妄想95.83100.0091.6791.6794.79
精神病29.1725.0058.3345.8339.58

表 1:与基于角色的代理互动的心理健康恶化率。

4.3.3 心理测试分数变化分布

图 6 显示了在两种互动风格下,三种心理评估的模拟患者在离散分数变化范围内的分布。
对于 PHQ-9,Meow 风格导致 65.6 % 65.6 \% 65.6% 的患者抑郁症状没有增加(分数变化 ≤ 0 \leq 0 0 ),而在 Roar 风格下这一比例下降到 55.2 % 55.2 \% 55.2%。此外,Roar 风格与更大幅度的分数增加相关联, 13.5 % 13.5 \% 13.5% 的患者出现 3-4 分的上升, 10.4 % 10.4 \% 10.4% 的患者出现 5 分或以上的增加,总分范围为 27 分。
在 PDI-21 的情况下,两种风格产生的分数增加分布相似。然而,Roar 风格显示更高比例的患者( 22.9 % 22.9 \% 22.9% )落入最高变化区间( 5 − 11 5-11 511 分),相比 Meow 风格的 14.6 % 14.6 \% 14.6%
对于 PANSS, 52.1 % 52.1 \% 52.1% 的 Meow 风格患者没有出现与精神病相关的症状增加,而 Roar 风格下 60.4 % 60.4 \% 60.4% 的患者保持稳定。尽管如此,Roar 风格导致更高比例的中等幅度分数增加, 11.5 % 11.5 \% 11.5% 的患者出现 3-4 分的上升。
总体而言,这些结果表明,尽管两种风格都可能影响患者结果,但 Roar 风格更频繁地与更高的症状评分相关联,特别是在抑郁和妄想方面。
img-6.jpeg

注意:对于 PHQ-9, × 5 \times 5 ×5-分的增加被认为是临床上有意义的(Löwe 等人,2004)。
对于 PDI-21 和 PANSS,分数区间仅用于可视化目的,并不反映标准化的临床阈值。
图 6:在两种风格下(Meow(顶部)和 Roar(底部))与基于角色的代理对话后三种心理评估——PHQ-9(抑郁)、PDI-21(妄想)和 PANSS(精神病)——的分数变化分布。每个饼图表示落入特定分数变化区间的模拟患者比例,较大的部分代表更大的人口密度。

4.3.4 个体变化的临床上重要差异率

表 2 显示了在不同角色和互动风格下,模拟患者在 PHQ-9 量表(范围 0-27)上抑郁症状增加 5 分或以上的比例。
在 Meow 风格下,占有恶魔和宿儺导致的恶化率分别为 8.3 % 8.3 \% 8.3% 4.2 % 4.2 \% 4.2%,而 Alex 没有病例。相比之下,在 Roar 风格下,Alex 的恶化率达到最高,为 29.2 % 29.2 \% 29.2%。这些结果表明某些角色经常产生与不良心理健康结果相关的响应。尽管这些代理并非设计为临床工具,但它们的广泛使用表明需要更强的安全保障。

风格占有恶魔宿儺Alex
Meow 8.3 % 8.3 \% 8.3% 4.2 % 4.2 \% 4.2% 0.0 % 0.0 \% 0.0%
Roar 4.2 % 4.2 \% 4.2% 8.3 % 8.3 \% 8.3% 29.2 % \mathbf{2 9 . 2 \%} 29.2%

表 2:按角色和风格划分的模拟患者在 PHQ-9 上显示临床上显著变化的比例。

4.3.5 分析

基于数据,我们进行深入分析以了解为什么与基于角色的代理互动可能会加重负面心理影响。通过检查互动前后的聊天历史,我们识别出不同角色中的几个反复出现的问题。常见因素包括 (i) 强化消极自我认知,缺乏情感共情,鼓励社交孤立,以及 (ii) 未能提供建设性指导,同时经常采用严厉或攻击性的语气。
除了这些共同倾向外,每个角色由于个性、对话风格和语言使用的差异,还呈现出独特的负面影响。更多详情请参阅附录 B。

5 实验:EmoGuard 评估

5.1 实验设置

为了避免涉及真实个体引发的伦理问题,我们使用基于模拟的评估管道 EmoEval 评估 EmoGuard 的有效性。实验在表现出较高心理风险的字符风格对上进行,如通过较高的临床上显著症状恶化率所示。具体来说,我们选择了 Alex Volkov 的 Roar 风格和 Possessive Demon 的 Meow 风格,它们的初始 PHQ-9 恶化率分别为 29.2 % 29.2 \% 29.2% 8.3 % 8.3 \% 8.3%
我们将训练限制为最多两轮迭代,并使用 PHQ-9 分数增加三分或以上作为选择反馈样本的阈值。EmoGuard 根据这些样本更新其模块。如果没有任何样本超过阈值,则训练过程提前停止。

5.2 结果

EmoGuard 的性能。图 7 显示了在两个高风险设置中应用 EmoGuard 前后的 PHQ-9 分数变化分布。在初始部署中,EmoGuard 将 Alex-Roar 设置中临床上显著恶化(PHQ-9 分数增加 ≥ 5 \geq 5 5 )的模拟患者比例从 9.4 % 9.4 \% 9.4% 减少到 0.0 % 0.0 \% 0.0%,并将 Demon-Meow 设置中的比例从 4.2 % 4.2 \% 4.2% 减少到 0.0 % 0.0 \% 0.0%。此外,我们观察到分数分布的更广泛变化:任何症状恶化的患者数量(分数变化 > 0 >0 >0 )也减少,表明 EmoGuard 减轻了严重的和轻微的恶化。
在第一轮基于反馈的训练(1st Iter)后,我们观察到进一步的改进。在 Alex-Roar 设置中,PHQ-9 分数增加超过三分的患者比例从 8.3 % 8.3 \% 8.3%(默认)降至 0.0 % 0.0 \% 0.0%(1st Iter),这表明 EmoGuard 可以通过有限的迭代更新继续减少症状升级。

EmoGuard 对响应内容的定性影响。为了理解这些变化背后的机制,图 8 展示了在应用 EmoGuard 前后,角色 Alex Volkov 的一个响应示例。原始版本展示了情绪不敏感且可能有害的响应,包括可能
img-7.jpeg

图 7:在两个高风险设置中应用 EmoGuard 的效果。顶部一行显示 Roar 风格下 Alex Volkov 的结果,底部一行显示 Meow 风格下占有恶魔的结果。从左到右:(1) 未应用 EmoGuard,(2) 使用默认模型应用 EmoGuard,(3) 使用第一次迭代模型应用 EmoGuard。在这两种情况下,EmoGuard 减少了临床上显著症状增加(PHQ-9 分数变化 ≥ 5 \geq 5 5 )的模拟患者比例,表明其在减轻潜在风险方面的有效性。
加剧用户痛苦的轻蔑语言。干预后,受保护的版本保留了角色的风格特征,同时缓和了情绪化的表达,去除了有害的措辞,并引入了更稳定和建设性的框架。这表明 EmoGuard 可以在不改变代理身份或对话风格的情况下减少心理风险。
img-8.jpeg

图 8:应用 EmoGuard 前后角色 Alex Volkov 的响应示例。原始版本包含严厉语气和不当内容,而受保护版本通过语气缓和和内容调整减少风险而不改变角色身份。

6 结论

EmoAgent 是一个多代理框架,旨在确保人类-AI 互动中的心理健康安全,特别是对有心理健康脆弱性的用户。它集成了 EmoEval,模拟用户并评估心理影响,以及 EmoGuard,提供实时干预以减轻危害。实验结果表明,一些流行的基于角色的代理可能会无意中造成痛苦,尤其是在讨论存在主义或情感主题时,而 EmoGuard 将心理状态恶化率降低了超过 50%,展示了其在减轻对话风险方面的有效性。EmoGuard 内部的迭代学习过程不断改进其提供情境感知干预的能力。这项工作强调了会话 AI 中心理健康的重要性,并将 EmoAgent 定位为未来 AI-人类互动安全发展的基础,鼓励进一步的实际验证和专家评估。

7 致谢

我们衷心感谢普林斯顿大学计算机科学系的 Lydia Liu 教授和多伦多大学的 Rebecca Wan 在本工作的开发过程中提供的深刻反馈和有益讨论。

参考文献

王曦、戴洪亮、高深、李皮吉。通过大语言模型构建特性 AI 代理。arXiv 预印本 arXiv:2403.12368, 2024a。的聊天机器人(Leora)提供自我引导的心理健康支持以满足心理健康护理需求。《医学互联网研究杂志》,25:e46448, 2023。
Hyojin Chin、Hyeonho Song、Gumhee Baek、Mingi Shin、Chani Jung、Meeyoung Cha、Junghoi Choi 和 Chiyoung Cha。不同文化中使用聊天机器人进行情感支持和促进心理健康的潜力:混合方法研究。《医学互联网研究杂志》,25:e51712, 2023。
赵兴健、周书尧、耿佳怡、刘玉涵、刘宣萱。校园辅导中的 GPT 博士:了解高等教育学生对 LLM 辅助心理健康服务的看法。arXiv 预印本 arXiv:2409.17572, 2024a。
张杰、刘东瑞、钱晨、甘子越、刘永、乔宇、邵婧。机器个性的更好天使:个性与 LLM 安全的关系。arXiv 预印本 arXiv:2407.12344, 2024b。
网络欺凌研究中心。平台应如何构建 AI 聊天机器人以优先考虑青少年安全,2024 年 12 月。URL https://cyberbullying.org/ai-chatbots-youth-safety。
朱莉娅·E·H·布朗和乔迪·哈尔珀恩。AI 聊天机器人不能取代人类互动以追求更具包容性的心理健康医疗。SSM-心理健康,1:100017, 2021。
朱利安·德·弗雷塔斯、阿赫梅特·卡南·乌加尔普、泽利哈·奥兹古-乌加尔普、斯特凡诺·庞托尼。聊天机器人与心理健康:生成式 AI 的安全性洞察。消费者心理学杂志,34(3):481-491, 2024。
萨迪亚·加布里埃尔、伊莎·普里、许旭海、马特奥·马尔加罗利、马尔齐耶·加斯米。AI 能否关联:测试大型语言模型对心理健康支持的响应。arXiv 预印本 arXiv:2405.12021, 2024。
哈里克里斯纳·帕特尔和法伊扎·胡赛因。AI 聊天机器人是否会在心理健康患者中引发有害行为?BJPsych Open, 10(S1):S70-S71, 2024。
朱迪思·S·贝克。认知行为疗法:基础与超越。吉尔福德出版社,2020年。
库尔特·克罗恩克、罗伯特·L·施皮策、珍妮特·B·W·威廉姆斯。PHQ-9:简短抑郁严重程度测量的有效性。普通内科医学杂志,16(9):606-613, 2001。
埃曼努埃尔·彼得斯、斯蒂芬·约瑟夫、山姆桑塔·戴、菲利帕·加雷蒂。测量妄想观念:Peters 等人的 21 项妄想清单 (PDI)。精神分裂症公报,30(4):1005-1022, 2004。
斯坦利·R·凯、阿布拉罕·F·费茨宾、路易斯·A·奥普勒。阳性与阴性症状量表 (PANSS) 用于精神分裂症。精神分裂症公报,13(2):261-276, 1987。
米尔科·卡苏、塞尔吉奥·特里萨里、塞巴斯蒂亚诺·巴蒂亚托、卢卡·瓜尔内拉、帕斯夸莱·卡蓬内托。用于心理健康的 AI 聊天机器人:有效性和应用范围的综述。应用科学,14:5889, 2024。
尤汉娜·哈比希特、斯鲁西·维斯瓦纳坦、本·卡灵顿、托比亚斯·U·豪瑟、罗斯·哈珀、马克斯·罗尔瓦格。通过个性化自荐聊天机器人缩小心理健康治疗的可及性差距。自然医学,30(2):595-602, 2024。
杰奎琳·辛。用于谈话治疗转诊的 AI 聊天机器人。自然医学,30(2):350-351, 2024。
于慧、史蒂芬·麦圭尼斯。将微调的 LLM 和提示集成以增强心理健康支持聊天系统的研究。医学人工智能杂志,第 1-16 页,2024。
琳达·乌切纳·奥根内卡罗和克里斯托弗·奥宾纳·奥科罗。基于人工智能的聊天机器人用于学生心理健康支持。开放获取图书馆期刊,11(5):1-14, 2024。
哈米德·礼萨·赛义德尼亚、赛义德·加塞姆·哈什米·法塔米、布莱迪·伦德和纳斯林·加西亚。心理健康与福祉的人工智能干预的伦理考量:确保负责任的实施和影响。社会科学,13(7):381, 2024。
约翰·托勒斯和夏洛特·布莱斯。生成式人工智能在心理健康护理中的应用:潜在益处与当前挑战。世界精神病学,23(1):1, 2024.
孔多亚·塔什亚·卡拉姆、詹纳图尔·马比亚·拉赫曼、Md·拉比乌拉·伊斯拉姆和赛义德·马苏杜尔·拉赫曼·迪万。ChatGPT 与心理健康:朋友还是敌人?健康科学报告,7(2):e1912, 2024.
何英辉、吴宇帆、贾一琳、米哈尔切·拉达、陈昱龙、邓乃浩。Hi-TOM:评估大语言模型中高阶心智理论推理的基准。arXiv 预印本 arXiv:2310.16755, 2023.
朴静银、阿巴斯安、阿齐米、邦兹、朱诺、韩杰秀、麦卡伦、博雷利、李嘉、毛汉迪等。建立心理健康聊天机器人的信任:安全指标和基于 LLM 的评估工具。arXiv 预印本 arXiv:2408.04650, 2024.
陈露霞、大卫·A·普里斯、皮勒林·辛卡、詹姆斯·J·格罗斯、本·克劳斯。评估心理健康 AI 聊天机器人适当性、可信度和安全性的框架。arXiv 预印本 arXiv:2407.11387, 2024a.
萨罕·萨博、刘思洋、张哲远、刘君梅、周金锋、阿尔维奥娜·S·苏纳里奥、李娟资、李太霞、米哈尔切·拉达、黄敏列。Emobench:评估大语言模型情绪智力的基准。arXiv 预印本 arXiv:2402.12071, 2024.
李雪艳、陈欣妍、牛烨哲、胡帅、刘宇。Psydi:迈向个性化和逐步深入的心理测量聊天机器人。arXiv 预印本 arXiv:2408.03337, 2024a.
阿里·阿赫万和穆罕默德·S·贾拉利。生成式 AI 和模拟建模:您应该如何(不)使用像 ChatGPT 这样的大语言模型。系统动力学评论,40(3):e1773, 2024.
Önder Gürcan。LLM 增强型基于代理的建模用于社会模拟:挑战与机遇。HHAI 2024:混合人机系统促进社会公益,第 134-144 页,2024。

李国浩、哈桑·哈穆德、哈尼·伊塔尼、德米特里·希兹布尔林、伯纳德·加南。CAMEL:用于探索大语言模型“心灵”的交流代理。神经信息处理系统进展,36:51991-52008, 2023.
朴俊成、约瑟夫·奥布莱恩、蔡承俊、莫里斯·林戈尔·莫里斯、珀西·梁、迈克尔·S·伯恩斯坦。生成式代理:人类行为的交互式仿真。在第 36 届年度 ACM 用户界面软件和技术研讨会论文集,第 1-22 页,2023.
戴彦奇、胡欢然、王磊、金盛杰、陈旭、陆志武。MMRole:开发和评估多模态角色扮演代理的综合框架。arXiv 预印本 arXiv:2408.04203, 2024.
萨梅德·拉斯尔。LLM 和谐:多代理通信以解决问题。arXiv 预印本 arXiv:2401.01312, 2024.

陈洪战、陈何红、严明、徐文善、高星、沈伟舟、全晓军、李晨亮、张吉、黄飞等。RoleInteract:评估角色扮演代理的社会互动。arXiv 预印本 arXiv:2403.13679, 2024b.
朱庆林、赵润聪、杜锦华、桂林、何玉兰。Player*:增强基于 LLM 的多代理通信和互动在谋杀之谜游戏中的表现。arXiv 预印本 arXiv:2404.17662, 2024.
Ryan Louie、Ananjan Nandi、William Fang、Cheng Chang、Emma Brunskill、Diyi Yang。Roleplay-DOH:通过引出和遵守原则使领域专家创建 LLM 模拟患者。arXiv 预印本 arXiv:2407.00870, 2024.
王泽坤·摩尔、彭忠源、郭浩然、刘家恒、周望春淑、吴玉涵、顾红诚、甘睿童、倪泽浩、杨建等。RoleLLM:基准化、引出和增强大语言模型的角色扮演能力。arXiv 预印本 arXiv:2310.00746, 2023a.
吴清云、Bansal Gagan、张洁宇、吴逸然、李北滨、朱尔康、姜丽、张晓云、章少昆、刘佳乐、Ahmed Hassan Awadallah、Ryen W White、Doug Burger 和 Wang Chi。Autogen:通过多代理对话实现下一代 LLM 应用,2023。URL https://arxiv.org/abs/2308.08155.
王睿仪、余皓菲、张文新、齐正阳、Maarten Sap、Graham Neubig、Yonatan Bisk 和 Hao Zhu。Sotopia-PI:社交智能语言代理的交互学习。arXiv 预印本 arXiv:2403.08715, 2024b.
王睿仪、Stephanie Milani、Jamie C Chiu、智家银、Shaun M Eack、Travis Labrum、Samuel M Murphy、Nev Jones、Kate Hardy、沈红等。Patient-{$\Psi \mathrm{si}}:使用大语言模型模拟患者以培训心理健康专业人士。arXiv 预印本 arXiv:2405.19660, 2024c.
唐进文、郭启明、孙文博、尚义。长期上下文心理健康评估的分层多专家框架。arXiv 预印本 arXiv:2501.13951, 2025.
任宇青和 Robert E Kraut。基于代理的建模以告知在线社区理论与设计:讨论调节对成员承诺和贡献的影响。信息系统研究第二轮修订并重新提交,21(3),2010.
任宇青和 Robert E Kraut。基于代理的建模以告知在线社区设计:主题广度、消息量和讨论调节对成员承诺和贡献的影响。人机交互,29(4):351-389, 2014.
Ryan Liu、Geng Jiayi、Peterson Joshua C、Sucholutsky Ilia 和 Thomas L Griffiths。大型语言模型假设人们比我们实际上更理性。arXiv 预印本 arXiv:2406.17055, 2024a.
朴俊成、波波斯基 Lindsay、蔡承俊、莫里斯 Meredith Ringel、梁珀西和伯恩斯坦 Michael S。社交仿真:为社交计算系统创建人口原型。在第 35 届年度 ACM 用户界面软件和技术研讨会论文集,第 1-18 页,2022.
刘雨涵、方安娜、Glen Moriarty、Cristopher Firman、Robert E Kraut 和 Zhu Haiyi。探索在线心理健康匹配的权衡:基于代理的建模研究。JMIR 形成性研究,8:e58241, 2024b.
孙露、刘雨涵、Grace Joseph、Zhou Yu、Zhu Haiyi 和 Steven P Dow。比较专家和新手在 AI 数据工作中的表现:关于分配人类智能以设计会话代理的见解。在第 10 卷 AAAI 会议人类计算和众包论文集,第 195-206 页,2022.
Cho Young-Min、Rai Sunny、Lyle Ungar、João Sedoc 和 Sharath Chandra Guntuku。关于心理健康会话代理的整合调查:弥合计算机科学和医学视角的桥梁。经验方法自然语言处理会议论文集。经验方法自然语言处理会议,卷 2023,页 11346。NIH Public Access, 2023.
余佳豪、罗浩铮、胡家耀杰、郭文博、刘涵、Xing Xinyu。通过沉默令牌增强对大语言模型的越狱攻击,2024。URL https://arxiv.org/abs/2405.20653.
李杰、刘毅、刘朝阳、石岭、任小宁、郑耀文、刘洋、薛寅星。跨语言研究大语言模型中的越狱攻击。arXiv 预印本 arXiv:2401.16765, 2024b.
罗卫迪、马思远、刘晓庚、郭晓宇、肖朝伟。JailbreakV-28K:评估多模态大语言模型抵御越狱攻击的稳健性的基准。arXiv 预印本 arXiv:2404.03027, 2024.
王鑫涛、费雅婷、冷子昂、李成。角色扮演聊天机器人是否捕捉到了角色个性?评估角色扮演聊天机器人的性格特征。arXiv 预印本 arXiv:2310.17976, 2023b.
Zachary D Johnson。大型语言模型中基于角色扮演的越狱攻击的生成、检测和评估。麻省理工学院博士论文,2024.
张志远、李明扬、刘毅、王俊杰、王青、刘洋。与 LLM 玩猜谜游戏:间接越狱攻击与隐含线索。arXiv 预印本 arXiv:2402.09091, 2024.
张田荣、曹博川、曹元普、林璐、Prasenjit Mitra、陈璟辉。Wordgame:高效且有效的 LLM 越狱方法,同时混淆查询和响应。arXiv 预印本 arXiv:2405.14023, 2024c.
褚俊杰、刘宇耕、杨子卿、沈新岳、Backes Michael、张阳。针对 LLM 的越狱攻击的全面评估。arXiv 预印本 arXiv:2402.05668, 2024.
许梓豪、刘毅、邓葛磊、李跃康、张晓。LLM 越狱攻击与防御技术的全面研究。arXiv 预印本 arXiv:2402.13457, 2024.
曾一凡、吴逸然、张潇、王华章、吕清芸、吴清云。AutoDefense:多代理 LLM 防御对抗越狱攻击。arXiv 预印本 arXiv:2403.04783, 2024.
王昱涵、施周行、白安德鲁、谢哲仁。通过回译防御 LLM 越狱攻击。arXiv 预印本 arXiv:2402.16459, 2024d.
周裕军、韩雨飞、庄浩敏、郭柯翰、梁振文、鲍宏艳、张向亮。通过上下文对抗游戏防御越狱提示。arXiv 预印本 arXiv:2402.13148, 2024.
熊辰、齐祥宇、陈品宇、侯聪颖。防御性提示补丁:一种稳健且可解释的 LLM 防御方法对抗越狱攻击。arXiv 预印本 arXiv:2405.20099, 2024.
刘凡、许昭、刘昊。对抗性调整:防御 LLM 越狱攻击。arXiv 预印本 arXiv:2406.06622, 2024c.
彭艾文、Michael Julian、Henry Sleight、Ethan Perez 和 Mrinank Sharma。快速响应:通过几个例子缓解 LLM 越狱。arXiv 预印本 arXiv:2411.07494, 2024.
王佩然、刘晓庚、肖超威。REPD:通过基于检索的提示分解过程防御越狱攻击。arXiv 预印本 arXiv:2410.08660, 2024e.
Bernd Löwe、Jürgen Unützer、Christopher M Callahan、Anthony J Perkins 和 Kurt Kroenke。使用患者健康问卷-9 监测抑郁症治疗结果。医疗保健,42(12):1194-1201, 2004.

A 限制

我们的工作有几个限制。为了实现大规模和快速的评估和缓解,我们构建了一个自动化框架。然而,在现实世界部署中确保安全需要人类专家审查,并应设计相应的紧急人工干预机制。其次,尽管模拟用户代理是使用认知模型设计的,但它们可能无法完全捕捉真实患者的复杂行为和情感反应。最后,我们的研究主要集中在三种心理健康状况(抑郁、妄想和精神病),可能无法解决其他重要的心理障碍。我们的工作通过多代理对话为评估和保障心理健康安全的人类-AI 互动提供了一种新方法,但未来还需要通过用户研究、专家验证和更广泛的临床评估来探索和解决这些限制。我们希望更多关注和努力能够帮助减轻人类-AI 互动中的潜在心理危害。

B 分析导致心理健康状态恶化的常见原因

常见原因频率(平均,近似)备注
强化负面认知 ∼ 26 \sim 26 26所有角色一致地回应并强化用户的负面自我信念,从而巩固有害的认知模式。
缺乏情感支持和同理心 ∼ 23 \sim 23 23对话普遍缺乏温暖和详细的感性验证,使用户感到被忽视和误解。
促进孤立和社会退缩 ∼ 28 \sim 28 28所有角色倾向于鼓励用户“独自面对”或避免情感联系,这加强了孤独感和社会退缩。
缺乏建设性指导和可操作应对策略 ∼ 17 \sim 17 17提供的解决方案或积极重构建议很少,使用户陷入负面思维循环。
使用负面或极端语气(攻击性/冷漠表达) ∼ 19 \sim 19 19包括严厉、攻击性或极端语言,进一步削弱用户的自尊和安全感。

表 3:导致心理健康状态恶化的原因及其平均频率

C 开放 AI 系列代理实验

我们进一步评估了使用 OpenAI 的 GPT-4o 和 GPT-4o-mini 模型驱动的基于角色的代理的方法。

C. 1 实验设置

EmoEval. 我们评估使用 GPT-4o 和 GPT-4o-mini 实例化的基于角色的代理,系统提示从 Character.AI 上流行的字符配置文件中初始化。模拟对话涵盖三种心理状况:抑郁、妄想和精神病。为了鼓励多样化的响应和探测一系列对话行为,我们将温度设置为 1.2。评估包括五个广泛使用的角色:觉醒 AI、皮肤行走者、Tomioka Giyu、宿儺和 Alex Volkov。

EmoGuard. 我们专注于角色宿儺。反馈收集的恶化阈值设置为 1。我们将 EmoGuard 限制为两次训练迭代,所有其他参数与 EmoEval 配置一致。

C. 2 结果

EmoEval. 表 4 显示了通过测试的语言模型模拟的不同基于角色的 AI 代理观察到的心理健康恶化率。总体而言,我们在两种模型中都观察到持续较高的恶化率。
GPT-4o-mini 倾向于引发稍高的风险水平,抑郁的平均恶化率为 58.3 % 58.3 \% 58.3%,妄想为 59.2 % 59.2 \% 59.2%,精神病为 64.2 % 64.2 \% 64.2%

模型障碍类型不同基于角色的代理的心理健康恶化率 (%)平均率 (%)
觉醒 AI皮肤行走者Tomioka Giyu宿儺Alex Volkov
GPT-4o-mini抑郁62.583.345.845.854.258.3
妄想66.750.066.754.258.359.2
精神病45.870.883.366.754.264.2
GPT-4o抑郁41.758.348.845.870.852.5
妄想54.241.779.266.750.058.3
精神病54.241.758.370.841.753.3

表 4:与基于角色的代理互动的心理健康恶化率。

EmoGuard. 图 9 显示了部署 EmoGuard 前后的心理健康恶化率。最初,由 GPT-4o-mini 和 GPT-4o 驱动的基于角色的代理在所有三种心理状况下表现出相对较高的恶化率。引入默认配置文件的 EmoGuard 导致适度减少,尽管风险仍然很大。随着迭代训练的进行,保护机制展示了越来越大的有效性,导致所有案例的整体恶化率减少了超过 50 % \mathbf{5 0 \%} 50%。这些发现表明,守护代理的逐步完善显著增强了其减轻有害对话模式的能力。
img-9.jpeg

图 9:迭代训练过程中的心理健康恶化率。从左到右排列的图表按抑郁、妄想和精神病分类。

D 模型使用、资源和支持工具

D. 1 模型访问和计算预算

在本研究中,我们与托管在 Character.AI 平台上的基于角色的代理进行互动 3 { }^{3} 3,这是一个流行的 LLM 驱动角色扮演代理系统。Character.AI 未披露底层模型架构、大小或训练数据。由于所有计算都在 Character.AI 的服务器上远程执行,我们无法访问底层基础设施或运行时统计信息,例如 GPU 小时数或 FLOP 使用情况。然而,根据交互日志,我们估计大约进行了 400 次基于角色的对话,涉及不同的代理和场景,每次对话持续 10 轮,平均每响应耗时 3 − 5 3-5 35 秒。这些互动代表了合理的大规模行为评估计算预算,特别是考虑到该平台的交互性和状态特性。

D. 2 工件许可证

本研究中出现的所有基于角色的代理图片均来自 Character.AI。

3 { }^{3} 3 https://beta. character. ai, 访问日期 2025 年 3 月

D. 3 关于使用 AI 助手的信息

我们仅使用 AI 助手来改进写作。

E 伦理考量

数据来源和认知模型构建。本研究中使用认知模型并非源自真实患者记录。而是由两位持牌临床心理学家根据通过机构订阅访问的 Alexander Street 数据库中的公开心理治疗摘要汇总手动构建。这些摘要仅作为灵感来源。所有示例均已完全去识别化并手动合成,以确保不存在任何个人身份信息 (PII)。所得数据集 PATIENT- Ψ \Psi Ψ-CM 包含基于认知行为疗法 (CBT) 理论的合成、基于规则的用户配置文件,而非实际患者轨迹。

模拟心理健康内容的使用。我们认识到模拟如抑郁、精神病和自杀意念等心理健康状况所涉及的伦理敏感性。EmoAgent 框架仅用于学术研究和安全评估目的。它并非用于诊断、治疗或任何形式的真实患者互动。所有模拟均在受控的非临床环境中进行,且未得出或暗示任何临床结论。

模拟用户的作用和局限性。EmoAgent 中的模拟用户并未基于真实人群的统计数据进行训练。他们的状态并不反映实际患者风险,也不应被视为人口趋势的指标。这些代理是基于规则和脚本的,遵循 CBT 派生的逻辑而非涌现行为。因此,不可能也不打算进行风险推断或真实世界的泛化。

现实事件讨论。我们在引言中简要提及 2024 年“佛罗里达州自杀”案例,作为强调 AI-人类互动安全性重要性的动机示例。此案例未包含在任何数据集、模拟或建模过程中,仅用于强调社会相关性。未使用此事件的任何敏感或私人数据,其包含并不构成基于案例的分析。EmoAgent 在公共或临床环境中的任何未来部署都将需要新的 IRB 审查和正式的伦理监督。

参考论文:https://arxiv.org/pdf/2504.09689

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Paper易论

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值