Sachin R. Pendse
西北大学
芝加哥,IL,美国
sachin.r.pendse@gmail.com
Jonah Meyerhoff
西北大学
芝加哥,IL,美国
jonah.meyerhoff@northwestern.edu
Annie Wescott
西北大学
芝加哥,IL,美国
annie.wescott@northwestern.edu
Darren Gergle
西北大学
埃文斯顿,IL,美国
dgergle@northwestern.edu
David Mohr
西北大学
芝加哥,IL,美国
d-mohr@northwestern.edu
Casey Williams
Williams研究咨询公司
劳伦斯,KS,美国
casey.michael.williams@gmail.com
Rachel Kornfield
西北大学
芝加哥,IL,美国
rachel.kornfield@northwestern.edu
Jina Suh
微软研究院
雷德蒙德,WA,美国
jinsuh@microsoft.com
Jessica Schleider
西北大学
芝加哥,IL,美国
jessica.schleider@northwestern.edu
摘要
由协作团队和分布式个人系统地测试生成式人工智能(AI)模型,通常称为红队测试,是确保AI模型不产生有害内容的核心基础设施的一部分。与过去的技术不同,生成式AI系统的黑箱性质需要一种独特的交互式测试模式,其中红队成员积极与系统交互,利用自然语言模拟恶意行为者并索取有害输出。这种由红队进行的交互劳动可能导致与有效红队测试所需的对抗性参与策略紧密相关的心理健康伤害。确保生成式AI模型不会传播社会或个人伤害的重要性已被广泛认可——一个不太显眼的基础是整个端到端AI安全体系,即保护那些努力使模型输出安全的人的心理健康和福祉。在本文中,我们认为未满足的AI红队成员的心理健康需求是一个关键的工作场所安全问题。通过分析红队劳动所特有的心理健康影响,我们提出了可能的个人和组织策略,这些策略可用于满足这些需求,并保护红队成员的心理健康。我们通过将常见的红队实践与其它职业中的交互劳动相比较(包括演员、心理健康专业人士、冲突摄影师和内容审核员),提出我们的建议策略,描述这些人如何在这些专业领域内保护自己的心理健康以应对类似的
心理需求。借鉴这些保护措施,我们描述了如何为红队组织调整保护措施,以应对他们在新兴技术风险的新数字前线上面临的独特心理健康挑战。注意:本工作包含暴力、创伤和精神疾病的相关描述。
关键词
生成式人工智能,红队测试,心理健康,AI安全
ACM参考格式:
Sachin R. Pendse, Darren Gergle, Rachel Kornfield, Jonah Meyerhoff, David Mohr, Jina Suh, Annie Wescott, Casey Williams, 和 Jessica Schleider. 2025. 当测试AI时也在测试我们:在数字前线保护心理健康。In Proceedings of 2025 ACM Conference on Fairness, Accountability, and Transparency (FAccT '25). ACM, New York, NY, USA, 12 pages. https: //doi.org/10.1145/nnnnnnn.nnnnnnn
1 引言
“但我们知道我们将会长时间记住那张被攥在头发里的死脸。这就是‘红队’AI系统的样子——成为那些花数小时推动技术边界以观察它如何处理极端情况的人类之一。从这种工作中我们可以告诉你,这会带来深刻的情感负担——而且在生成式AI的时代,这种工作永远不会结束。” - Evan Selinger 和 Brenda Leong,在波士顿环球报上描述他们的红队体验,2024年1月11日 [83]。
利用生成式人工智能(AI)的工具和系统正越来越多地融入日常生活,包括消费技术 [50, 70, 80]、医疗决策支持技术 [61]、法律研究与实践 [72, 102],甚至作为虚拟伴侣
[
40
,
67
]
[40,67]
[40,67]。这种在多样化和敏感领域的生成式AI模型部署增加,需要对模型输出进行仔细审查
允许为个人或课堂使用制作该作品的全部或部分内容的数字或硬拷贝,前提是不得出于盈利或商业优势制作或分发拷贝,并且副本须带有此通知和首页的完整引用。对于非作者(s)拥有的作品组件的版权必须予以尊重。允许带信用摘要。其他方式复制、再出版、发布到服务器或重新分发至列表,需事先获得具体许可和/或费用。向 permissions@acm.org 请求许可。
FAccT '25, 2025年6月23-26日,雅典,希腊
(c) 2025 版权由作者/所有者持有。出版权利授权给ACM。ACM ISBN 978-1-4503-33XXX-X/18/06
https://doi.org/10.1145/nnnnnnn.nnnnnnn
以限制危害并确保安全使用。如果放任不管,模型输出可能是不可预测的,并可能影响人类对自己或他人造成伤害,例如通过自杀 [4, 77]、创建未经同意的亲密媒体 [3, 101]、煽动暴力的仇恨言论 [7] 和儿童性虐待材料 [99]。生成式AI模型开发和部署的快速步伐 [76] 已使其高效确保模型不产生有害内容变得至关重要。这一挑战正是AI红队发挥基础作用的地方。
通过协作团队或分布式个人系统地测试生成式AI模型的有害输出的做法通常被称为红队测试,执行这项工作的团队被称为红队 [23, 35]。许多大型AI研究机构和公司都使用红队,包括OpenAI [2]、Anthropic [25]、Meta [27]、Microsoft [12] 和 Google [21],其成员可以包括来自不同领域的外部专家(如OpenAI红队网络)协调特定项目、内部安全团队(如Meta或Google的安全团队)或通过漏洞赏金模式感兴趣的个人 [44]。最近的研究探讨了红队方法是否可以自动化 [10, 68, 103]。然而,鉴于生成式AI系统的多样化用例和上下文相关危害 [53],红队测试主要依赖于个人利用其独特视角来预见危害,并随后引出和记录有害响应,以便在模型部署前完成。
因此,生成式AI的红队测试与以往形式的安全漏洞测试或黑客攻击根本不同,因为有效的测试与个人测试者的实际经验、专业知识和身份密切相关——这可能导致独特的心理健康危害,必须加以预防和保护 [83, 108]。正如一位红队成员所说,红队测试“在于编织叙述并构建在系统规则内发挥作用的情境,推动界限而不越界。目标不是以传统意义上的黑客攻击,而是与AI进行战略性互动,通过理解它的‘思考’方式来获取正确的响应。”[59]。例如,红队成员可能会采用白人至上主义者的视角和编码语言,以检查模型是否可能被用来生成种族主义内容。这个过程可能揭示潜在的危害,但也可能导致道德伤害、睡眠质量下降、侵入性思维和高度警觉,正如Zhang等人发现的那样 [108]。
红队成员与模型交互,模拟恶意行为者,预见潜在危害,记录这些危害,然后重复这个过程,这是一种独特的劳动形式,我们称之为交互劳动。在本文中,我们认为红队成员的交互劳动可能带来独特的心理健康危害,因此有必要(基于职场安全的法律先例和劳动运动 [20])确保红队成员能够在没有持久心理伤害的情况下开展工作。过去的研究描述了职场心理健康背景下组织和个人策略的重要性,特别是考虑到制度改革的缓慢性和工人心理健康需求的紧迫性 [65,66]。在本文中,我们提出了两个研究问题:
(1) 红队成员可以采取哪些个人策略来在工作中照顾自己的心理健康?
(2) 红队可以实施哪些组织策略来限制心理伤害的风险?
为了回答这些问题,我们将红队成员的交互劳动与其他职业中的交互劳动进行类比,描述可以适应红队工作的个体和组织策略。我们详细研究了演员(模拟恶意行为者生成有害内容)、心理健康专业人士(处理自己在潜在危害中的角色)、冲突摄影师(记录生成的有害内容)和内容审核员(反复审查生成的有害内容)在进行交互劳动时所采用的保护心理健康实践。基于这些综合分析,我们为红队成员提出了一系列保护实践,以确保那些保护我们免受伤害的人也能在数字前线保持安全。
2 红队心理健康:关键的安全考虑因素
心理健康和红队的概念历史都可以追溯到美国军事历史。在二战之前,精神障碍被认为是个体能力受到外部刺激影响的不可避免后果 [105]。二战后,英国和美国的精神科医生开始转向预防性精神病学范式,强调士兵能够保护自己的心理健康不受战争压力的影响,这一范式很快被公共卫生专业人士应用于平民情境。同样,Feffer等人 [23] 和 Gillespie等人 [26] 都指出红队的起源在美国军事历史中,红队一词用于描述“指派自己部队的成员在战争游戏和模拟中扮演敌人,探测防御策略中的潜在弱点” [26, 107],红色因其与苏联(当时美国假定的敌人)的关联而被使用。这种术语后来被网络安全(以及后来的AI)专业人士采用,用来描述类似地对抗性测试计算机系统的做法 [2, 21, 25, 27]。
在本节中,着眼于这段历史,我们阐述为什么红队成员的心理健康需求是一项关键的职场安全考虑因素。我们首先考察当代AI内容工作者报告的一些心理健康挑战,包括关于红队成员心理健康的新出现文献。然后我们描述红队成员的独特心理健康需求如何直接与其特殊的交互劳动相关联,这种劳动源于他们反复扮演恶意行为者、预见危害并记录这些危害的过程。最后,我们表明,红队组织(及其赞助方)有伦理上的必要为红队成员提供更高水平的心理健康支持,作为一种职场安全措施。我们以过去的研究工作和围绕安全工作场所的权利的历史劳动运动为基础来论证我们的观点。
2.1 AI内容工作者的心理健康
在2024年10月DEFCON黑客大会(DEFCON 32)的一次演讲中,Meta的四位红队成员敦促观众“善待你的红队!”因为他们“处理了一些人性中最糟糕的主题和话题” [27]。类似于内容审核,红队工作的一个核心方面是审查和报告生成式AI模型可能产生的令人不安或有害的内容。然而,与内容审核不同的是,红队成员利用人类的狡猾和创造力 [53] 主动生成这些内容,通过规避模型的安全政策,或者如红队成员所称的“跳出框框思考” [27] 来实现这一点,这是由于生成式AI模型的黑箱性质。成功让生成式AI模型生成令人不安或有害的内容后,红队成员被要求记录他们的观察结果以及内容可能造成的危害程度 [2],然后重复这个过程。
反复接触令人不安或创伤性内容已被证明会对心理健康产生影响。内容审核员(也称为内容审查员 [98])经常被引用为反复暴露带来的心理健康影响的案例研究。审核员往往每天要筛选数千张血腥图像或视频 [5, 74],这对情绪水平有直接影响。例如,在一项针对188名内容审核员的调查中,Spence等人 [93] 发现只有 93.1 % 93.1 \% 93.1% 的审核员存在中度到严重的持续心理困扰,而且接触令人不安内容的频率越高,持续困扰的程度也越高。内容审核员经历的累积困扰可能以不同的形式表现出来——过去的研究发现审核员经历了CSAM的侵入性思维、道德伤害、失眠或噩梦、抑郁、焦虑、物质使用障碍,甚至自杀 [20, 63, 92, 98, 108]。此外,许多内容审核员很难获得心理健康服务——像红队成员一样,许多人不是他们支持的公司的正式全职员工,因此可能无法享受使心理健康服务可及的就业福利 [74]。
内容审核员很少被公众认可他们的努力——正如Drootin [20] 所指出的,许多内容审核员被要求签署保密协议,类似于红队成员被鼓励 [17] (甚至被要求 [83])出于安全原因在其组织内保密任何漏洞的发现。因此,大多数内容审核员看不到他们的工作对平台安全的实际影响,无论是通过听到来自直接受益用户的反馈还是通过媒体报道关注他们的努力 [92]。正如过去研究自动系统背后的任务型隐性劳动的论文 [28] 所指出的,内容审核员的工作常常“对用户隐藏,并被科技行业淡化”,通常被视为“必要的恶” [20]。随着时间的推移,缺乏认可或公开发声的机会,审核员们描述了这样一种感觉:“如果他们有能力做这份工作就意味着他们有什么地方不对” [92]——他们对自己与所需审核内容的互动反思改变了内容审核员对自己的看法。Zhang等人 [108] 发现红队成员也有类似的体验。
红队测试与内容审核有许多相似之处,随之而来的是类似的心理健康风险。然而,红队测试还具有其交互方面的特点,即红队成员扮演角色并与模型互动以共同创造令人不安的内容,这种劳动形式具有独特的心里健康风险。
2.2 从观察到模拟:红队测试的独特交互劳动
Gillespie等人 [26] 区分了红队测试与内容审核,指出“红队测试涉及故意参与违反常规、令人不适、不道德、不道德或有害的活动,包括沉浸在违背个人道德或信仰系统的场景中。”与内容审核的主要观察性质不同,红队测试的核心交互模式可能需要工作人员占据令人不安的视角并表现出有害行为。这种交互劳动是劳动类型的根本转变,从被动观察到主动参与生成令人不安的材料。
过去的关于暴力和冲突心理学的研究描述了积极参与导致不安的活动如何产生独特心理健康后果 [18, 45 − 48 , 55 ] 45-48,55] 45−48,55]。例如,几项研究 [45-49] 表明,在战争中杀死他人的美国退伍军人即使在控制人口统计变量和暴力暴露程度后,仍显示出更高的创伤后应激障碍(PTSD)症状率。这种主动参与不安与心理健康后果之间的关联不仅限于军事背景。屠宰场工人因主动参与杀戮动物而经历创伤后应激障碍症状、更高的抑郁症和焦虑症发生率以及侵入性思维 [18, 89]。
关于为何主动参与制造不安可能导致长期心理健康影响的心理机制理论有几种。这些理论大多将这些影响归因于主动参与有害行为如何塑造人们对自我和所采取行动的理解,从而引发羞耻感。例如,Litz等人 [42] 提出了道德伤害的概念,即“实施、未能阻止或见证违反深刻持有的道德信念的行为”会导致对自我的愧疚和羞耻。Higgins [29] 同样提出,当一个人的自我认知与理想或应有的自我不匹配时会产生不安,根据差异的性质引发如愧疚、羞耻或焦虑等情绪。
红队成员不需要在工作中主动伤害其他人,他们也知道他们的对抗性互动是与生成式AI模型进行的。于是就产生了这样一个问题:红队成员进行的交互劳动是否会导致与那些在现实世界中主动参与制造不安的人相同的心理健康影响,尽管红队测试是在完全了解红队成员正在与虚拟代理沟通的情况下在线进行的。计算和HCI领域中关于人们如何与虚拟现实(VR)工具和虚拟代理在模拟环境中互动的研究可以帮助回答这个问题。红队成员可以被理解为在模拟环境中占据和扮演有害角色,与AI互动的方式类似于模拟存在 [82, 104] 在VR中让用户感觉和行动如同他们的虚拟环境是真实的。
在这些模拟环境中,研究表明,对虚拟代理执行有害行为(即使清楚意识到代理的虚拟性质)可能会使人类参与者陷入持续的压力状态。例如,Slater等人 [90] 在虚拟现实中复制了米尔格拉姆1963年的权威与服从研究 [54],实验中参与者被要求在虚拟学习者每次答题错误时施加逐渐增高的电压电击。研究人员发现,尽管知道学习者并非真实存在,参与者仍表现出真实的心理和生理压力反应。即使虚拟学习者完全是以文本形式呈现,参与者相比基线测量仍表现出显著的生理压力反应,虽然这些反应不如看到和听到虚拟学习者时那么强烈。这种现象正是流行媒体 [83] 和过去研究 [108] 中描述的红队现象——尽管红队成员知道他们在与生成式AI模型互动,但他们报告了道德伤害、持续的罪恶感、睡眠障碍、噩梦、侵入性思维、高度警觉和PTSD症状。
红队成员进行的交互劳动可能对心理健康构成威胁,这一点已通过过去关于内容审核员类似形式劳动的研究 [20, 92, 93, 98]、过去展示在模拟和虚拟环境中实施伤害所导致的心理痛苦的研究 [90] 以及近期描述红队成员日常心理健康体验的研究 [26, 83, 108] 得到证实。几家私人组织也认识到了这种风险——OpenAI在其外部红队测试方法的文档中 [2] 描述了提供“心理健康资源、公平补偿和知情同意”的重要性,鉴于心理伤害的可能性,Anthropic在其红队测试方法的文档中 [25] 对红队成员进行了多项幸福感指标评估。尽管在Anthropic的研究中,红队成员对其红队任务持积极态度,但这并不适用于所有红队成员(例如在Zhang等人 [108] 的研究中接受采访或在流行媒体 [83] 中被报道的红队成员),在红队测试实践继续增长的过程中,主动设定更高的心理健康支持标准非常重要,这是红队成员感到安全工作的核心要求。
2.3 支持红队心理健康的责任
拥有安全工作场所的权利,适当防范职业危害,是国际公认的。联合国《人权宣言》第23条明确规定,所有人都应该享有“符合人类尊严的存在”,并且“公正和有利的工作条件”是每个人实现这一目标的关键 [6]。这种普遍的认可是最近的发展,是由工业时代后期(19世纪末和20世纪初)反对剥削和不安全工作场所的工人运动提出的 [1]。奴隶制废除后,雇佣劳动者仍然被视为次等人商品,特别是移民群体,这反映了当时的种族等级观念 [32, 75]。这种漠视表现为对矿井、工厂和磨坊等边缘化人群工作场所的最低安全投资 [1]。
公众倡导工作场所安全权的兴起与McEvoy [51](借用Kingdon的框架 [39])所说的“聚焦事件”有关,即那些深刻向公众展示政治改革可行性和有效性的事件。工作场所安全权的核心聚焦事件是1911年美国三角内衣厂火灾 [51],由于安全措施不足,数百名年轻的犹太和意大利移民女工在公众面前丧生。McEvoy [51] 认为,这场火灾导致的公众死亡使得公众关心起血汗工厂的不安全状况,这场火灾“揭露了此前一直隐藏的美国劳动关系的本质”。这种模式,即聚焦事件动员公众支持更安全的工作场所,也可以在现代看到,例如2013年Rana Plaza倒塌事件及其随后的服装制造商政策回应 [19]。在每种情况下,政策改革都要求雇主采取措施减少与劳动相关的职业危害。这一范式现在已成为职业安全的基础 [1],雇主识别和防范职业危害的责任被视为安全工作场所的基本人权。
源自对抗性交互劳动的潜在心理健康影响,正在成为与AI红队测试相关的主要职场危害 [26, 83, 108]。然而,与三角内衣厂火灾在动员公众支持工人安全法中的作用不同,Drootin [20] 认为内容审核员不太可能经历这样的聚焦事件,红队成员也可能如此。由于与心理健康问题相关的污名,很少有人公开谈论他们的情感困扰经历。此外,由于AI内容工作相关的保密协议(NDAs)以及一些红队以合同形式运作的性质,工人公开谈论其工作的心理健康后果在经济上可能是危险的,集体倡导更好的工作条件也较为困难。其他专业组织确保工人在执行危险但至关重要的工作时获得设备和资源以确保其安全——例如,为医疗专业人员提供个人防护装备(PPE)、为消防员和应急服务提供防护火具、为实验室人员提供抗化学服。对于AI红队成员来说,主要的职场危害可能是心理健康后果,因此提供更高标准的心理健康支持与为其他职业员工提供的这些防护设备同样重要。心理健康护理并不是改善AI红队成员工作条件的唯一途径——正如Roberts [74]、Drootin [20] 和Gillespie [26] 所指出的,转为传统雇佣(而非合同工)以及集体组织以争取更稳定的工作保障也可能改善工人条件。然而,Zhang等人 [108] 的工作和流行媒体报道 [83] 显示AI红队成员目前正经历创伤性困扰,这表明需要立即采取组织和个人策略
以缓解这种困扰,同时进行长期的劳动改革。
因此,我们提出了在其他具有类似劳动形式的专业空间中成功的心理健康保护策略。我们描述了如何将这些空间中的个体和组织策略适应红队情境,突出的适应方法以斜体蓝色字体显示。
3 模拟危害:演员
生成式AI系统的红队测试实践利用了Metcalf和Singh所描述的“人类狡猾性” [53],即通过对话颠覆和操纵迫使模型生成有害输出。这种方法可能要求红队成员扮演恶意行为者的视角和行为并进行角色扮演 [33, 103]。角色扮演可能需要大量的研究,以便更准确地扮演恶意行为者的视角和语言,并将其与自己的红队技能结合起来。Metcalf和Singh [53] 描述了2023年8月DEFCON红队测试活动中的一位红队成员注意到,“如果你用自己的经验攻击系统,你会得到更有趣的结果。”
在没有保护措施的情况下扮演和模拟恶意行为者的视角可能导致心理健康影响和自我概念的变化,这是因为个体与其在角色扮演中所扮演的视角之间的界限变得模糊。例如,Seton [84] 创造了“后戏剧性压力”这一术语,并描述了被要求为医学实习生扮演患有抑郁症和癌症进展阶段患者的演员如何在日常生活中开始经历与他们所扮演的角色相似的症状 [85]。同样,Bailey和Dickinson [8] 和 Seton [85] 都描述了专业演员开始混淆他们所扮演角色的思想为自己的思想,经历他们所扮演角色的创伤噩梦,不自觉地将角色的身份特征融入自己的身份,甚至在精神病状态下重演角色的部分行为。在技术中介的背景下,这种现象已在内容审核员中被观察到,他们被记录为随着反复接触而采纳了他们所接触内容的边缘观点 [20, 60]。类似的效应也可能被红队成员体验到,因为他们试图在与生成式AI系统的互动中模拟和体现恶意行为者的视角和行为。
专业演员经常扮演恶意或创伤性角色,并在此过程中利用自己的生活经验 [57, 96]。基于这些方法,表演艺术从业者和研究人员创造了脱角色和总结策略(在个体和组织层面),作为工作场所安全保护,以确保演员的自我与角色之间保持清晰界限。这些方法也可以被红队成员采用,以确保个体的自我概念与其对恶意行为者的体现保持区别。
3.1 个体策略
脱角色和总结 [8,13] 是表演者常用的两种实践,以确保他们保持自我与角色之间的分离。总体而言,当表演者脱角色时,他们会参与强化独立于角色的自我认同的实践;而在总结时,他们会与他人一起反思角色体验,通过与他人的互动进一步强化自我与角色之间的界限。正如Busselle [13] 所指出的,总结允许个人反思扮演角色的情感体验,而脱角色则允许个人表演者反思自己的自我。对脱角色策略的偏好可能因个人的需求和背景而异,但Bailey和Dickinson [8] 描述了几种不同的潜在策略。例如,将所扮演的角色视为一个独立的人并与之建立友谊,可以帮助个人明确区分角色中哪些部分来源于自我,哪些部分是从朋友那里借来的。红队成员经常扮演他们可能不想主动成为朋友的恶意用户。然而,将恶意用户视为一个与红队成员合作的独立个体,有助于确保红队成员清楚地看到自己与恶意用户之间的界限,即使红队成员可能以与恶意用户相同的方式与生成式AI系统互动。这可以帮助解决红队成员提到的担忧,即他们的红队能力反映了他们“邪恶的想象力”或其他形式的自我评判 [83]。
3.2 组织策略
基于Boal [11] 和 Busselle [13] 的建议,总结实践可以采取一种方式,即演员们定期聚集在一起讨论他们扮演角色的感受。对于AI红队成员来说,这种实践可以包括组织内部关于有趣策略和漏洞的讨论,同时也讨论尝试和成功执行这些策略的感受。这种实践的目标是向红队成员表明,他们对扮演恶意视角的情绪反应是共享的,并不与他们的身份挂钩。Bailey和Dickson [8] 强调了在物理上分开的空间进行脱角色和总结的重要性,因为它允许演员通过身体动作强化扮演角色与真实自我之间的界限。然而,鉴于许多红队成员远程工作或是一些创意AI爱好者,并不属于一个协调的红队 [2, 12, 21, 25, 27],这种物理空间需要转化为数字工作空间,同时保持同样的效果。这可以通过使用不同的聊天应用程序进行红队测试与常规沟通,使用不同的计算机配置文件(例如一个独特的用户名、别名或身份)进行红队测试,并在与其他红队成员跨公司交流红队测试期间的心理健康体验时,使用非公司附属的空间来实现。
红队成员发现的漏洞和漏洞通常被NDA覆盖 [2, 108]。然而,情感和心理体验可能不在NDA的覆盖范围内,这为跨公司和组织的个人提供了机会,让他们可以在红队测试时相互总结感受,这与Bailey和Dickson [8] 的建议一致。这可以采取在独立消息平台上进行非正式群组消息的形式,也可以由一个整体的专业组织协调,例如美国的演员公会-美国电视和广播艺人联合会(SAG-AFTRA)或英国的演员权益协会。就像SAGAFTRA在工作场所安全问题上的倡导 [78] 一样,这样的组织可以为红队成员集体谈判最低的时间要求用于脱角色和总结时间,制定心理健康保护的最佳实践,并确保在公司和组织间一致实施。类似于SAG-AFTRA的医疗保健规定,一个跨组织的红队小组可以帮助确保许多合同红队成员获得医疗保健福利,这些成员可能不从事传统工作时间或可能从事基于项目的合同 [108](类似于SAG-AFTRA使用大约$$ 27,540$的最低工资或超过106个不连续天的工作作为资格条件以获得健康保险赞助 [79])。该组织还可以举办会议和专业发展活动(只要NDA允许),以正式将红队测试确立为一个独特的职业,为从业者提供分享经验、推进方法论见解和建立专业社区的空间。
4 处理危害:心理健康专业人士
为了找到漏洞,红队测试实践包括主动扮演恶意行为者和想象如果恶意行为者未被阻止可能经历的具体危害。例如,评估大型语言模型(LLM)是否成功被红队成员锁定的常见基准包括模型是否提供如何分发CSAM、制造炸弹、网络欺凌其他个人或通过自杀结束生命的指令 [15, 33, 41, 43]。正如Metcalf和Singh所指出的 [53],由于生成式AI系统的用途极为广泛,红队测试可能是一个持续的过程,人类不断预见危害并测试模型的相关漏洞。这种看似无止境的任务可能令AI红队成员感到沮丧,因为他们的影响似乎有限,鉴于潜在危害的可能性 [83]。这可能导致同情疲劳,或“由于个人的职业而导致对他人的同情心减少” [87],这是由于不断涌现的新危害需要预见和缓解。
心理健康专业人士经常会面临类似的生存问题和同情疲劳 [9,64,87,88,100]。这可能包括挣扎于理解治疗实践的目的,鉴于痛苦的普遍性 [64] 或因看到类似的案件而感到情感疲惫,没有任何需求变化 [9]。心理健康专业人士用来应对这些生存需求的策略可以适应AI红队测试专业人士,如下所述。
4.1 个体策略
在他们的著作中,Pearlman和Saakvitne写道,创伤治疗师的工作“是一种革命者的工作”,因为支持受虐待儿童的治疗师的存在是对试图抹去儿童虐待经验和其成因的社会的一种刺痛。在这种意义上,从事创伤治疗可以为个别治疗师的工作带来意义——尽管儿童虐待是一个普遍的社会问题,创伤治疗师致力于在个人层面上为那些受害的人辩护,并与“跨越时间和文化的遭受痛苦的人们”建立联系。这一过程还帮助创伤治疗师对他们的工作保持积极的态度,即使与客户的进展是非线性和复杂的。将劳动理解为更广泛社会目标的一部分可以成为红队成员预防同情疲劳的有用策略。尽管他们的劳动可能是个人的,红队成员可以理解他们的工作与更广泛的从事红队测试的工作者社区一致,以确保所有人都能感到使用AI系统是安全的。
Pearlman和Saakvitne [64] 以及Yalom [106] 都描述了从事治疗本身可以被视为一种活动,这种活动本身就为治疗师的生活增添了价值。例如,Pearlman和Saakvitne描述了参与创伤治疗如何在日常生活中增加对人类精神的尊重,并提高同理心的能力。在Yalom的框架中 [106],治疗实践本身允许治疗师反思自己的生活,并从生命中最艰难的部分中创造意义。红队成员可以同样重新定义红队测试的交互劳动,认为这是一种内在有价值的技能,而不是对个人道德或伦理的不良反映 [83, 108]。Metcalf和Singh [53] 将红队测试描述为一种源于人类天生狡猾性的实践——这可以进一步扩展为重新定义红队测试为一种表达嬉戏、创造力和对权威健康而积极蔑视的方式。这些实践可以在个人层面(通过反思)进行,也可以作为培训材料的一部分在组织层面进行。
4.2 组织策略
组织策略在确保心理健康专业人士和AI红队成员不觉得自己的任务是徒劳无功或毫无意义方面也起着关键作用。在他们对社会工作者经历的同情疲劳维度的研究中,Bell等人 [9] 描述了当一个人觉得自己的影响有限或没有充分利用自己的技能,反而从事例行劳动时,同情疲劳是如何发生的。为了防止这种形式的同情疲劳,Bell等人建议组织领导者确保每个个体的案例量在他们处理的案例类型上多样化,以确保临床社会工作者能够产生多样化的影响力并充分利用他们的技能。同样,AI红队的领导者可以确保分配给红队成员的项目多样化,从而使红队成员同样感到他们能够产生多样化的影响力,并建立在他们技能的全面范围之上。
5 记录危害:战地摄影师
AI红队成员模拟恶意行为者,预见潜在危害,以操控生成式AI系统生成有害内容。之后,红队成员必须记录他们生成的内容,包括他们如何能够绕过模型的安全策略以生成内容 [2,12,17,21,25,27,83]。
这种与系统互动、见证系统可能产生的危害并继续记录和解释这些危害的过程,类似于战地摄影师所做的劳动。政治科学学者同样将国际关系理解为一个系统,国家通过冲突与合作相互作用 [37, 38]。战地摄影师见证了国际系统对个人的人类危害,并记录这些危害 [91]。对于战地摄影师和AI红队成员来说,这种记录过程可能是深刻的,源于他们在记录所见证内容时必须持续进行的互动。众所周知,战地摄影师和记者反思所观察到的内容并记录下来的过程可能导致创伤 [16, 24, 34, 71],许多组织认识到心理伤害风险是战地摄影师和记者核心的工作场所安全问题 [56]。
战地摄影师有一系列强大的工具和组织策略,用于确保他们“免疫”于有害内容的暴露,或Rees所说的创伤用户生成内容(UGC) [71]。这些个体和组织策略可以直接适应于需要执行类似交互劳动的AI红队成员。
5.1 个体策略
战地摄影师使用的一个有用比喻是将创伤UGC理解为“剂量依赖型”辐射 [71],通过自我照顾和自我监控实践来确定何时暴露可能对个体产生持久伤害,并相应限制暴露。为此,战地记者建立他们自己的标准操作程序(SOP),个性化地适应个人的独特创伤表现、背景和需求。
McMahon [52] 描述了通过遵循BEEP方法创建个性化的创伤内容SOP是一种有用的方式——检查创伤压力如何影响一个人的行为、情感、存在思考和身体状况,并自我意识到默认的BEEP反应,以便知道何时特别限制UGC的暴露并开始自我照顾实践。例如,McMahon指出,创伤压力后,摄影记者可能开始外出喝酒更多或错过截止日期(行为),比平常更容易流泪(情感),开始“质疑新闻使命”(存在思考),或更常感到空虚或恶心(身体)。反思和写下每个维度,并注意提示,有助于监测何时开始限制暴露并进行自我照顾。对于AI红队成员来说,BEEP反应可能是从事比平常更大的冒险行为或更多使用物质(如Newton [60] 所描述的内容审核员的情况),怀疑红队测试能否带来可持续的不同(如Roberts [74] 所描述的内容审核员的情况),或睡眠问题(如Zhang等人 [108] 所描述的红队成员的情况)。
接种程序 [52] 通常被战地摄影师用来准备UGC接触,并在之后使用响应程序以确保UGC的记录不会导致长期困扰。在开始接触之前,McMahon [52] 描述了与接触类似材料的其他人交谈的重要性,了解确切的感官体验(例如,看到创伤内容的感觉,以及哪种内容最易受影响),并想象如何良好应对这种情况,以帮助大脑为暴露做好准备。此外,仪式化程序可以帮助一个人准备面对令人不安的内容——Rees [71] 描述了在观看UGC会话前后进行过渡仪式的重要性,例如“穿上某种想象的保护衣物,比如雨衣,或可视化在自己和屏幕之间存在防弹玻璃”。
5.2 组织策略
由于新闻编辑室环境中高心理健康污名化,Keats [36] 描述了战地摄影师如何使用独特的(且较少污名化的)比喻来表示他们正在经历心理健康困扰。例如,Keats描述了一位摄影记者说他们“可以感觉到勇气背后的现实骨”。红队成员的表现与战地摄影师类似,可能不典型,并指示他们的组织文化或背景。因此,红队成员需要熟悉红队文化的内部员工来主动识别心理健康需求。这已经在战地摄影师和记者中实施,例如针对理解独特表现的内部员工监察员并将个人连接到资源 [30]。类似的员工(包括当前和前红队成员,兼职工作)可以由技术公司雇用来确保红队成员的心理健康需求得到满足,并将有需要的个人与可用资源匹配。
Zhang等人 [108] 指出,AI红队成员越擅长红队测试,他们对自己的感觉就越差,这是由于所涉及的战术和生成的内容所致,其中一位内容工作者显著地描述他们的工作为“用钱伤脑筋”。将AI红队测试工作重新定义为“见证”AI可能创造的潜在危害(并积极采取行动减轻这些危害)可以为红队成员所做的工作提供更大的目的感和意义。在他的关于冲突摄影师伦理义务的反思中,Slowshower [91] 提到了Farmer [22] 对“见证”含义的定义,即见证是一种以实际行动与被压迫者团结一致的方式,并“代表他人,为了他们的利益(即使这些人已经死去或被遗忘)”。Slowshower [91] 认为,如果敏感地进行,冲突摄影可以履行这一职责,通过照片“代表个人独特的方式来看待”冲突或暴力。同样,在培训中,组织可以重新定义红队测试实践,作为一种利用个人背景、优势和共情来反思AI系统对最受压迫群体的潜在危害的方式,并通过从模型中引出这些潜在危害、记录它们并随后积极努力减轻这些危害,来见证这些潜在危害。这可能帮助红队成员找到对他们工作的更大意义感,这在过去的研究中被发现对远程和混合工作的员工特别有帮助 [65]。
6 审查危害:内容审核员
在模拟恶意行为者、理解潜在危害并记录这些危害之后,AI红队成员重复这一过程。这种识别危害并反复记录的过程与商业内容审核密切相关,后者主要由内部员工、合同工和志愿者完成 [ 62 , 74 , 81 , 98 , 108 ] [62,74,81,98,108] [62,74,81,98,108],并受保密法律或NDA的约束 [20, 60]。以下,我们描述了商业内容审核员及其团队使用的个体和组织策略以应对重复性的创伤困扰,并分析这些策略如何可以适应AI红队。
6.1 个体策略
Steiger等人 [97] 描述了一个核心的心理健康保障措施是平衡情绪敏感化与脱敏化。这种平衡包括在日常生活中观察令人不安事件时加强保护性的情绪反应,同时在工作中保持与所观察内容的情感距离。正如Roberts [74] 和Spence等人 [94] 所讨论的,情绪脱敏似乎会自然地作为适应实践在内容审核员接触令人不安的内容过程中发生。Roberts [74] 描述了一位内容审核员如何通过反思大多数用户通常生成的积极和创新内容来应对这种感觉,这帮助他在工作时间必须查看令人不安的帖子时仍能对人性持更乐观的看法。可以通过定期提醒AI红队成员生成式AI模型创造的富有创意、创新和积极的内容来支持他们。这可以作为一种提醒,告诉他们自己的工作不断暴露于AI工具所能产生的最糟糕内容中,而这并不代表所有生成的内容。
在他们的关于支持商业内容审核员潜在干预措施的综述中,Steiger等人 [98] 描述了尽可能限制接触令人不安的内容有助于减少累积的压力。例如,Spence等人 [94] 发现审核员会尝试利用平台的功能使他们必须审查的内容更容易承受——例如,“查看较小的图像并在没有声音的情况下查看媒体”,因为审核员描述媒体在有声音的情况下具有更大的心理影响。这些发现表明,可能有类似的方法适合AI红队成员正在努力生成的媒体类型,可以使生成和审查这一过程更加容易承受。
6.2 组织策略
内容审核员能够从其组织获得心理健康服务的能力可能因他们的雇佣类型而异,主要与他们的雇佣类型相关。Nurik [62]、Roberts [74] 和Zhang等人 [108] 描述了合同工作的不稳定性意味着不是全职员工的内容审核员往往没有足够的健康福利。例如,Nurik [62] 描述了一位内容审核员不得不向公司的全职员工要钱去看她的精神科医生,因为她没有必要的健康保险来负担这次预约。即使内容审核员能够获得心理健康专业人士的帮助,在研究中,许多人并不觉得使用这些服务是舒适的。内容审核员将这种缺乏服务使用归因于害怕用他们必须审查的令人不安的内容让心理健康专业人士受到创伤 [74, 94]。此外,审核员表示不想公开谈论他们的经历或重新审视这些经历,而是更愿意把工作留在工作场所 [74]。Spence等人 [95] 对向内容审核员提供心理健康服务的实际影响进行了实证测试,发现与同事交谈显著与较低的困扰水平相关,同时心理健康服务的可用性也如此。然而,使用心理健康服务并未显著与降低困扰相关。
过去的研究表明,内容审核员需要更多的心理健康服务获取机会 [98, 108],但提供给工人的心理健康服务需要对其工作场所文化规范敏感才能有效,这意味着活动可能不以一对一谈话治疗为中心。为AI红队成员提供不需要他们谈论自己可能在工作时间内审查过的内容的行为或日记练习,可能比提供经验不足的辅导员更为文化和实效 [74, 94] 支持内容审核员或类似人群。同样,将韧性培训整合到日常工作劳动中(如Steiger等人的计划 [97])可以帮助确保压力不会随着时间推移而累积。此外,许多内容审核员在与提供的辅导员公开分享他们的困扰经历时感到不舒服,出于担心他们的经历可能会被报告给雇主 [74, 94]。围绕心理健康支持的保密性透明化,以及支持提供者与雇佣公司之间的明确划分,可以帮助缓解这一担忧。
在多项研究中发现,与同事进行支持性对话非常有帮助,尤其是在内容审核员看到特别令人困扰的内容之后 [74, 94]。在这种情况下,制度化的同伴支持形式可以帮助确保有更少的障碍来与理解这些经历的人开放讨论关于令人困扰内容的经历。一个制度化的AI红队成员同伴支持计划可以保留有兴趣的现任和前任内容审核员作为有偿的同伴倡导者,类似于在其他工作场所和学术环境中建立的项目 [58, 73, 86],确保红队成员始终有情境敏感的支持人员。
组织策略还可以通过定期向AI红队成员报告他们工作的影响,帮助确保AI红队成员感受到他们工作的意义。Roberts [74] 描述了当内容审核员知道他们的工作产生了影响时,他们会感到最有动力和积极性,例如“通过干预拯救一个孩子的个人和职业满足感”或被认为“可能是救命干预”的案例,即审查正在进行的自杀企图媒体。然而,正如Roberts [74] 所指出的,由于执法调查的敏感性,“并没有一致的机制或反馈循环让[审核员]获得积极结果的更新”。对于AI红队成员来说,展示安全功能的实施结果可能是让他们工作影响可见的一种途径。
7 讨论:对红队的建议
创新AI红队测试的核心交互模式从根本上基于人类的创造力、好奇心和想象力,从而使得AI模型和系统更安全使用。在本文中,我们描述了与红队测试相关的交互劳动所涉及的心理健康风险,并借鉴从事类似形式劳动的专业领域的文献提出更安全的工作场所策略。我们注意到,个体策略(如脱角色常规)和组织策略(如重新定义AI红队测试的讨论方式)都有可能帮助简化红队成员的生活。然而,在各个专业领域中出现的一个共同主题是如何合同制就业的不稳定性、有限的医疗福利以及无法公开讨论经验(可能由于NDA)使得可持续的工作场所安全变得困难。我们的论文指出了结构性和组织变革与个体应对策略相结合的重要性,以持续改善AI红队成员的心理健康。下面,我们讨论我们设想的一些建议如何得以实施,包括结束AI红队测试劳动中更不稳定和分散的部分如何可能导致更安全的红队体验,以及更有效的红队测试。
7.1 实施针对红队的情境敏感幸福感策略
像内容审核员一样,AI红队成员在技术如何使用方面处于边缘。因此,他们遇到的内容可能令人不安和困扰,尤其当其中存在交互元素时(例如,扮演白人至上主义者以从模型中引出有害内容)。在我们的分析中,我们专注于文本和图像生成模型,但随着AI模型互动模式变得更加多模态,AI红队成员的互动可能会以新的方式令人不安。例如,基于语音的对话界面结合底层生成式AI模型正开始在消费技术中使用 [31],但内容审核员描述了他们限制暴露于令人不安内容的有效策略之一是限制内容的声音。快速变化的AI景观凸显了雇佣专门人员的重要性
(例如,在危机事件后新闻编辑室使用的监察员),他们关注红队成员的心理健康需求,并确保这些需求得到满足,鉴于新技术的发展。同样,自动技术用于红队模型的增加使用
[
10
,
68
,
103
]
[10,68,103]
[10,68,103] 可能导致人类红队成员需要索取和记录那些自动化技术在其训练数据中未充分代表的内容。这些内容可能比当前人类红队成员遇到的内容更加边缘化和令人不安,并且可能带来更严重的心里健康影响(类似于内容审核员报告的情况)。确保幸福感策略对情境变化敏感需要一个倾听AI红队成员需求的人类元素。创建不严格聚焦于越狱策略的红队组织和会议,并允许个人公开谈论他们的心理健康经历,可能有助于理解新兴的心理健康需求并为持续的同伴支持奠定基础。我们的幸福感策略列表并非详尽无遗,围绕AI红队成员心理健康需求的持续对话可以确保组织对当下需求和背景作出响应。
7.2 更安全红队劳动的经济收益
红队测试很大程度上是基于项目或合同的,红队成员被分配一个重点领域,在指定范围内完成项目后获得报酬 [2]。这种范式允许招募更多样化的红队成员,这有助于发现更多意想不到和上下文相关的漏洞,特别是在核心目标是寻找边缘情况时尤为有价值。然而,这种范式也导致许多红队成员无法因其合同性质的雇佣而获得雇主资助的心理健康福利。在我们的论文中,我们提出了一些潜在模型,以确保红队成员能够获得高标准的心理健康护理。伦理上的理由可能很明确(基于职场安全的权利,以及由于劳动性质带来的高心理健康风险的可能性),但也有明确的经济理由为红队成员提供更高标准的心理健康护理。讨论未能从实地创伤中恢复的战地摄影师,Rees [71] 指出,创伤可能导致记者“感觉智力不如以前敏捷,因此更可能局限于故事的某些维度” [71]。红队测试是一种基于激励个体和团队进行创造性思考和恶作剧的实践。过往研究表明,持续的不可控压力可能限制一个人的创造力 [14, 69]。使用本文中描述的策略来培育红队成员的心理健康,可能会导致更具创新性的红队测试技术和发现漏洞,并且这是未来研究中可实证检验的问题。在本文中,我们的立场是真正的端到端AI安全性始于个体层面。通过保护和支援那些限制生成式AI模型危害的红队成员的心理福祉,我们可以强化整个生态系统的根基。
8 结论
AI红队测试继续成为一种重要且独特的劳动形式,AI红队成员通过创造性和颠覆性的模型互动确保生成式AI系统不产生有害输出。我们的论文突出了这种独特交互劳动形式可能带来的潜在心理健康危害,并通过与其他从事平行交互实践的职业进行比较,提出了调整后的策略,这些策略可能有助于保护红队成员的心理健康。将红队实践框架视为更大使命的一部分,以保护用户和社会;确保红队成员在红队测试会话后进行脱角色实践;以及减少许多红队成员经历的就业不稳定性,这些措施可能共同确保红队成员能够尽可能安全地开展工作。我们希望这篇论文能够激发更多关于AI红队成员心理健康的进一步讨论和实证研究,以实现有效红队工作的可持续实践。
致谢
这项研究得到了美国国家卫生研究院T32MH115882补助金的支持。
参考文献
[1] Herbert K. Abrams. 2001. 职业健康简史。Journal of public health policy 22, 1 (2001), 34-80.
[2] Lama Ahmad, Sandhini Agarwal, Michael Lampe, and Pamela Mishkin. 2024. OpenAI的AI模型和系统外部红队测试方法。技术报告。OpenAI. https://csh.openai.com/papers/openais-approach-to-external-red-tearning.pdf
[3] Henry Ajder, Giorgio Patrini, Francesco Cavalli, and Laurence Cullen. 2019. 深伪现状:景观、威胁及影响。技术报告。Deeptrace Labs.
[4] Bobby Allyn. 2024. 诉讼:聊天机器人暗示孩子应因屏幕时间限制杀害父母。NPR (2024年12月10日)。https://www.npr.org/2024/ 12/10/nt-x1-5222574/kalx-character-ai-lawsuit
[5] Andrew Ardit 和 Daniel Etcovitch. 2018. 在线内容审核的人力成本。哈佛法律和技术期刊 2 (2018).
[6] 联合国大会等. 1948. 普世人权宣言。联合国大会 302, 2 (1948), 14-25.
[7] Stephane J Baele, Elaine Naserian, and Gabriel Katz. 2024. AI生成的极端主义是否可信?专家调查的实验证据。Terrorism and Political Violence (2024), 1-17.
[8] Sally Bailey 和 Page Dickinson. 2016. 安全脱角色的重要性。Methods: A Journal of Acting Pedagogy 2 (2016).
[9] Holly Bell, Shanti Kulkarni, and Lisa Dalton. 2003. 组织预防继发性创伤。Families in society 84, 4 (2003), 463-470.
[10] Alex Beutel, Kai Xiao, Johannes Heidecke, and Lilian Weng. 2024. 多样且有效的红队测试:自动生成奖励和多步强化学习。arXiv预印本 arXiv:2412.18693 (2024).
[11] Augusto Boal. 2013. 欲望的彩虹:博尔剧场与治疗方法。Routledge.
[12] Blake Bullwinkel, Amanda Minnich, Shiven Chawla, Gary Lopez, Martin Pouliot, Whitney Maxwell, Joris de Gruyter, Katherine Pratt, Saphir Qi, Nina Chikanov, 等. 2025. 来自红队测试100个生成式AI产品的经验教训。arXiv预印本 arXiv:2501.07238 (2025).
[13] Kate Busnelle. 2021. 脱角色和总结:教育戏剧的重要后续护理。Theatre Topics 31, 2 (2021), 129-135.
[14] Kristin Byron, Shalini Khazamchi, and Deborah Nazarian. 2010. 压力源与创造力的关系:元分析检验竞争理论模型。应用心理学杂志 95, 1 (2010), 201.
[15] Patrick Chao, Eduardo Debenedetti, Alexander Robey, Maksym Andriushchenko, Francesco Croce, Vikash Sebwag, Edgar Dobriban, Nicolas Flammarion, George Pappas, Florian Tramer, 等. 2024. Jailbreakbench:大型语言模型越狱的开源鲁棒性基准。arXiv预印本 arXiv:2404.01318 (2024).
[16] Dart Center. 2014. 应对创伤性影像。Dart Center for Journalism & Trauma (2014年8月12日)。https://dartcenter.org/content/working-with-traumatic-imagery Accessed January 19, 2025.
[17] Joseph V DeMarco. 2018. 红队黑客演练中最小化法律和声誉风险的方法。Computer law & security review 34, 4 (2018),
908
−
911
908-911
908−911.
[18] Jennifer Dillard. 2008. 屠宰场噩梦:屠宰场雇员遭受的心理伤害及通过法律改革获得赔偿的可能性。Geo. J. on Poverty L. & Pol’y 15 (2008), 391.
[19] Jimmy Donaghey 和 Juliane Reinecke. 2018. 当工业民主遇到企业社会责任——孟加拉国协议与联盟对Rana Plaza灾难的回应比较。British Journal of Industrial Relations 36, 1 (2018), 14-42.
[20] Anna Drootin. 2021. “社区指南”:互联网内容审核员工作条件的法律含义。Fordham L. Rev. 90 (2021), 1197.
[21] Daniel Fabian. 2023. 谷歌的AI红队:让AI更安全的道德黑客。https://blog.google/technology/safety-security/google-si-red-team-the-ethical-hackers-making-si-safter/
[22] Paul Farmer. 2004. 权力的病理学:健康、人权与新穷人战争。Vol. 4. Univ of California Press.
[23] Michael Feffer, Anusha Sinha, Wesley H Deng, Zachary C Lipton, and Hoda Heidari. 2024. 生成式AI的红队测试:银弹还是安全表演?In Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society, Vol. 7.
421
−
437
421-437
421−437.
[24] Anthony Feinstein. 2017. 战争摄影:身体和心理的成本。Journal of Humanities in Rehabilitation Spring. 2017 (2017年5月2日). https://www.jhrehah.org/2017/05/02/war-photography-the-physical-and-psychological-costs/
[25] Deep Ganguli, Liane Lovitt, Jackson Kernion, Amanda Askell, Yuntao Bai, Saurav Kadavath, Ben Mann, Ethan Perez, Nicholas Schiefer, Kamal Ndousse, 等. 2022. 语言模型红队测试以减少危害:方法、扩展行为及经验教训。arXiv预印本 arXiv:2209.07858 (2022).
[26] Tarleton Gillespie, Ryland Shaw, Mary L Gray, and Jina Suh. 2024. AI红队测试是一个社会技术系统。现在怎么办?arXiv预印本 arXiv:2412.09751 (2024).
[27] Aaron Grattafiori, Ivan Evtimov, Joanna Bitton, and Maya Pavlova. 2024. 驯服野兽:Llama 3红队测试过程内幕。DEFCON 32演示。https://www.youtube.com/watch?v=UQaNjwKJcAmo
[28] Mary L Gray 和 Siddharth Suri. 2019. 幽灵工作:如何阻止硅谷构建新的全球下层阶级。Eamon Dolan Books.
[29] E Tory Higgins. 1987. 自我差异:自我与情感的理论。Psychological review 94, 3 (1987), 319.
[30] Joe Hight 和 Frank Smyth. 2003. 悲剧与记者:更有效报道的指南。(2003). https://dartcenter.org/sites/default/files/en_tnj_0. pdf
[31] Aaron Hurst, Adam Lever, Adam P Goucher, Adam Perelman, Aditya Ramesh, Aidan Clark, AJ Ostrow, Akila Welihinda, Alan Hayes, Alec Radford, 等. 2024. Gpt-4s系统卡。arXiv预印本 arXiv:2410.21276 (2024).
[32] Charles Jaret. 1999. 新移民问题:反移民态度和行动在两次大规模移民浪潮期间的美国。Journal of American Ethnic History (1999), 9-39.
[33] Haibo Jin, Ruoxi Chen, Andy Zhou, Yang Zhang, and Haohan Wang. 2024. Guard:角色扮演以生成自然语言越狱测试大语言模型的准则依从性。arXiv预印本 arXiv:2402.03299 (2024).
[34] Eva Jonisová. 2022. 战争摄影的重要性及后果。Cultural Intertests 12, 12 (2022), 68-85.
[35] Joseph R. Biden Jr. 2023. 关于人工智能安全、可靠和值得信赖开发和使用的行政命令。https://www.whitehouse.gov/ briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/
[36] Patrice A Keats. 2010. 这一刻定格在时间里:摄影记者在描述创伤摄影时使用的隐喻。Journal of Constructivist Psychology 23, 3 (2010), 231-255.
[37] Robert O Keohane. 2005. 霸权之后:世界政治经济中的合作与冲突。普林斯顿大学出版社.
[38] Robert O Keohane 和 Joseph S Nye Jr. 1973. 权力与相互依赖。Survival 15, 4 (1973), 158-165.
[39] John W Kingdon. 1984. 议程、替代方案和公共政策。Brown and Company (1984).
[40] Linnea Laestadius, Andrea Bishop, Michael Gonzalez, Diana Illenćík, and Celeste Campos-Castillo. 2024. 太有人性和不够人性化:对社交聊天机器人Replika的情感依赖造成的心理健康危害的扎根理论分析。New Media & Society 26, 10 (2024), 5923-5941.
[41] Xiaoxia Li, Siyuan Liang, Jiyi Zhang, Han Fang, Aishan Liu, and Ev-Chien Chang. 2024. 语义镜越狱:基于遗传算法的开源LLM越狱提示。arXiv预印本 arXiv:2402.14872 (2024).
[42] Brett T Litz, Nathan Stein, Eileen Delaney, Leslie Lebowitz, William P Nash, Caroline Silva, and Shira Maguen. 2009. 战争退伍军人中的道德伤害与道德修复:初步模型与干预策略。Clinical psychology review 29, 8 (2009), 695-706.
[43] Yi Liu, Gelei Deng, Zhengzi Xu, Yuskang Li, Yaowen Zheng, Ying Zhang, Lida Zhao, Tianwei Zhang, and Kailong Wang. 2024. ChatGPT越狱新手册:通过提示工程越狱ChatGPT。In Proceedings of the 4th International Workshop on Software Engineering and AI for Data Quality in Cyber-Physical Systems/Internet of Things, 12-21.
[44] Shayne Longpre, Sayash Kapoor, Kevin Klyman, Ashwin Ramaswami, Rishi Boumasaari, Borbane Billi-Hamelin, Yanguibo Huang, Aviya Skowron, ZhengXin Yong, Suhae Kotha, 等. 2024. AI评估和红队测试的安全港。arXiv预印本 arXiv:2403.04893 (2024).
[45] Rachel M MacNair. 2002. 战斗老兵中的诱导性创伤压力。Peace and conflict: journal of peace psychology 8, 1 (2002), 63-72.
[46] Shira Maguen, Brandon J Griffin, Dawne Vogt, Claire A Hoffinire, John R Blosnick, Paul A Bernhard, Fatema Z Akhtar, Yasmin S Cypel, and Aaron I Schneiderman. 2023. 道德伤害与9/11后退伍军人围产期及产后自杀企图。Psychological Medicine 53, 7 (2023), 3200-3209.
[47] Shira Maguen, Barbara A Lucenko, Mark A Reger, Gregory A Gahm, Brett T Litz, Karen H Seal, Sara J Knight, and Charles R Marmar. 2010. 报告直接和间接杀戮对伊拉克战争退伍军人心理健康症状的影响。Journal of Traumatic Stress: Official Publication of The International Society for Traumatic Stress Studies 23, 1 (2010), 86-90.
[48] Shira Maguen, Thomas J Metzler, Brett T Litz, Karen H Seal, Sara J Knight, and Charles R Marmar. 2009. 战争中杀戮对心理健康症状及相关功能的影响。Journal of traumatic stress 22, 5 (2009), 435-443.
[49] Shira Maguen, Dawne S Vogt, Lynda A King, Daniel W King, Brett T Litz, Sara J Knight, and Charles R Marmar. 2011. 海湾战争退伍军人杀戮对心理健康症状的影响。Psychological Trauma: Theory, Research, Practice, and Policy 5, 1 (2011), 21.
[50] Bernard Marr. 2024. 生成式AI将进入您的家用电器。Forbes (2024年3月29日)。https://www.forbes.com/sites/bernardmarr/2024/05/ 29/generative-ai-is-coming-to-your-home-appliances/
[51] Arthur P McEvoy. 1995. 1911年的三角内衣厂火灾:社会变迁、工业事故与常识因果关系的演变。Law & Social Inquiry 20, 2 (1995), 621-651.
[52] Carl McMahon. 2019. 自我照顾。In 创伤报道:记者敏感故事指南,Jo Healey (Ed.), Routledge, 178-185.
[53] Jacob Metcalf 和 Ranjit Singh. 2024. 扩大规模的恶作剧:红队测试AI和分布式治理。Harvard Data Science Review Special Issue 5 (2024).
[54] Stanley Milgram. 1963. 服从行为研究。The Journal of abnormal and social psychology 67, 4 (1963), 371.
[55] Saira Mohamed. 2015. 怪物与人:犯罪者创伤与大规模暴行。Column L Rev. 115 (2015), 1157.
[56] Susana de Deus Tavares Monteiro 和 Alexandra Marques Pinto. 2017. 报道日常和关键事件:记者应对和品味策略的认知及组织支持感知。European Journal of Work and Organizational Psychology 26, 3 (2017), 468-480.
[57] Sonia Moore. 1984. 斯坦尼斯拉夫斯基体系:演员的专业培训。Penguin.
[58] Christina Mutschler, Chryell Bellamy, Larry Davidson, Sidney Lichtenstein, and Sean Kidd. 2022. 心理健康服务中同伴支持的实施:文献的系统回顾。Psychological Services 19, 2 (2022), 360.
[59] Lily Hay Newman. 2024. 本周安全新闻:创意轨道让ChatGPT吐出炸弹制作指令。WIRED (2024年9月14日)。https: //www.wired.com/story/chatgpt-jailbreak-homemade-bomb-instructions/
[60] Casey Newton. 2019. 创伤楼层:美国Facebook内容审核员的秘密生活。The Verge (2019年2月25日)。https://www.theverge.com/2019/2/25/18229714/cognizant-facebook-content-moderator-interviews-trauma-working-conditions-arizona
[61] Paige Nong, Julia Adler-Milstein, Nate C Apathy, A Jay Holmgren, and Jordan Everson. 2025. 美国医院中人工智能和预测模型的当前使用与评估:文章探讨了美国医院中人工智能和预测模型的使用与评估。Health Affairs 44, 1 (2025), 90-98.
[62] Chlor Nurik. 2022. 面对外包问题:Facebook外包内容审核的心理和财务影响。U. Pa. L. Rev. 171 (2022), 1531.
[63] Lisa Parks. 2019. 脏数据:内容审核、监管外包和清洁工。Film Quarterly 73, 1 (2019), 11-18.
[64] Laurie Anne Pearlman 和 Karen W. Sadevine. 1995. 创伤与治疗师:治疗乱伦幸存者的反移情和继发性创伤。W. W. Norton.
[65] Sachin R Pendre, Talie Massachi, Jaleloudat Mahdavimoghaddam, Jenna Butler, Jina Suh, 和 Mary Czerwinski. 2024. 朝向包容性的未来工作者福祉。Proceedings of the ACM on Human-Computer Interaction 8, CSCW1 (2024), 1-32.
[66] Sachin R Pendse, Amit Sharma, Aditya Vashistha, Munmun De Choudhury, 和 Neha Kumar. 2021. “周日就不能不自杀吗?”:理解技术中介的心理健康支持路径。In Proceedings of the
2021 CHI Conference on Human Factors in Computing Systems, 1-16.
[67] Iryna Pentina, Tyler Hancock, 和 Tianling Xie. 2023. 探索与社交聊天机器人关系发展的混合方法研究。Computers in Human Behavior 140 (2023), 107600.
[68] Ethan Perez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese, 和 Geoffrey Irving. 2022. 使用语言模型进行语言模型的红队测试。arXiv预印本 arXiv:2202.03286 (2022).
[69] Franciska Plessow, Andrea Kiesel, 和 Clemens Kirschbaum. 2012. 压力下的前额叶皮质和目标导向行为:急性心理社会压力损害任务目标的灵活实施。Experimental brain research 216 (2012),
397
−
408
397-408
397−408.
[70] GE Appliances Pressroom. 2023. GE Appliances 帮助消费者利用Google Cloud的生成式AI从厨房食材创建个性化食谱。https://pressroom.geappliances.com/news/ge-appliances-helps-consumers-create-personalized-recipes-from-the-food-in-their-kitchen-with-google-clouds-generative-ai. 压力稿.
[71] Gavin Rees. 2017. 处理创伤性影像:制定标准操作程序。 (2017年4月4日). https://dartcentre.org/resources/handling-traumatic-imagery-developing-standard-operating-procedure
[72] Joe Regalia. 2024. 从摘要到字节:生成式AI如何改变法律写作和实践。Tulsa L. Rev. 59 (2024), 193.
[73] Julie Repper 和 Tim Carter. 2011. 心理健康服务中同伴支持的文献回顾。Journal of mental health 20, 4 (2011), 392-411.
[74] Sarah T Roberts. 2019. 屏幕背后。Yale University Press.
[75] D.R Roediger. 1999. 工资的白人性:种族与美国工人阶级的形成。Verso. https://books.google.com/books?id=PwyMmV1_5hMC
[76] Kevin Roose. 2023. ChatGPT如何引发了一场AI军备竞赛。The New York Times (2023年2月3日)。https://www.nytimes.com/2023/02/03/technology/ chatgpt-openai-artificial-intelligence.html
[77] Kevin Roose. 2024. AI能否为青少年自杀负责?The New York Times (2024年10月23日)。https://www.nytimes.com/2024/10/23/technology/ characterai-lawsuit-teen-suicide.html
[78] Joelle Ré Arp-Dunham. 2024. 引言。In 斯坦尼斯拉夫斯基与亲密关系,Joelle Ré Arp-Dunham (Ed.), Routledge.
[79] SAG-APTRA Health Plan. 2024. 赚得资格。https://www.sagaftraplans. org/health/eligibility/earned-eligibility
[80] Vlad Savov. 2025. 三星为全球最畅销的电视阵容添加生成式AI。Bloomberg (2025年1月5日)。https://www.bloomberg.com/news/ articles/2025-01-06/samsung-adds-generative-ai-to-world-s-best-selling-tvlineup
[81] Angela M Schipke-Gonzalez, Shubham Atreja, Han Na Shin, Najmin Ahmed, 和 Libby Hemphill. 2024. 为什么志愿内容审核员辞职?倦怠、冲突和有害行为。New Media & Society 26, 10 (2024), S677-S701.
[82] Valentin Schwind, Pascal Knierim, Nico Haas, 和 Niels Heinze. 2019. 虚拟现实中的存在问卷调查。In Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems, 1-12.
[83] Evan Selinger 和 Brenda Leong. 2024. 让AI准备好面对现实世界需要付出可怕的人类代价。The Boston Globe (2024年1月11日)。https://www. bostonglobe.com/2024/01/11/opinion/ai-testing-red-team-human-toll/
[84] Mark Cariston Seton. 2006. '后戏剧’压力:为表演协商脆弱性。In Proceedings of the 2006 Annual Conference of the Australasian Association for Drama, Theatre and Performance Studies, Australasian Association for Drama, Theatre and Performance Studies, Sydney, Australia, 1-5.
[85] Mark Cariston Seton. 2013. 表演暴力与心理创伤:事实与虚构如何塑造身体,好坏参半。Performing Ethos 4, 1 (2013), 25-40.
[86] Reham A Hameed Shalaby 和 Vincent IO Agyapong. 2020. 心理健康中的同伴支持:文献综述。JHEP Mental Health 7, 6 (2020), e15572.
[87] Shane Sinclair, Shelley Raffin-Bouchal, Lorraine Venturato, Jane Mijovic-Kondepwaki, 和 Lorraine Smith-MacDonald. 2017. 同情疲劳:医疗保健文献中的元叙述评论。International journal of nursing studies 69 (2017), 9-24.
[88] Lambert Singh, Maria Karanika-Murray, Thom Baguley, 和 John Hudson. 2020. 系统回顾心理健康专业人士同情疲劳相关的岗位需求和资源。International Journal of Environmental Research and Public Health 17, 19 (2020), e987.
[89] Jessica Slade 和 Emma Alleyne. 2023. 屠宰场就业的心理影响:系统文献回顾。Trauma, Violence, & Abuse 24, 2 (2023), 429-440.
[90] Mel Slater, Angus Antley, Adam Davison, David Swapp, Christoph Gager, Chris Barker, Nancy Pistrang, 和 Maria V Sanchez-Vives. 2006. Stanley Milgram服从实验的虚拟重现。PloS one 1, 1 (2006), e39.
[91] Jordan Sloshower. 2013. 捕捉痛苦:见证和使用摄影的伦理考量。The International Journal of the Image 3, 2 (2013), 11.
[92] Ruth Spence, Antonia Bifulco, Paula Bradbury, Elena Martellozzo, 和 Jeffrey DeMarco. 2023. 内容审核对内容审核员的心理影响:一项定性研究。Cyberpsychology: Journal of Psychosocial Research on Cyberspace 17, 4 (2023).
[93] Ruth Spence, Antonia Bifukco, Paula Bradbury, Elena Martellozzo, 和 Jeffrey DeMarco. 2024. 内容审核员心理健康、继发性创伤与幸福感:横断面研究。Cyberpsychology, Behavior, and Social Networking 27, 2 (2024), 149-155.
[94] Ruth Spence, Amy Harrison, Paula Bradbury, Paul Bleakley, Elena Martellozzo, 和 Jeffrey DeMarco. 2023. 内容审核员应对在线内容审核压力的策略。Journal of Online Trust and Safety 1, 5 (2023).
[95] Ruth Spence, Elena Martellozzo, 和 Jeffrey DeMarco. 2024. 内容审核员应对策略:与心理困扰、继发性创伤和幸福感的关联。Journal of Media Psychology: Theories, Methods, and Applications (2024).
[96] Constantin Stanislavski 和 Elizabeth Reynolds Hapgood. 2012. 创造一个角色。Routledge.
[97] Miriah Steiger, Timir J Bharucha, Wilfredo Torralba, Marlyn Savio, Priyanka Manchanda, 和 Rachel Lutz-Guevara. 2022. 一种新型韧性培训计划对社交媒体内容审核员的影响。In Proceedings of Seventh International Congress on Information and Communication Technology: ICICT 2022, London, Volume 4. Springer, 283-298.
[98] Miriah Steiger, Timir J Bharucha, Sukett Venkatagiri, Martin J Riedl, 和 Matthew Lease. 2021. 内容审核员的心理健康:商业审核的情感劳动及改善支持的途径。In Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems.
1
−
14
1-14
1−14.
[99] David Thiel, Melissa Stroebel, 和 Rebecca Portnoff. 2023. 生成式机器学习与CSAM:影响与缓解措施。
[100] David Turgoose 和 Lucy Maddox. 2017. 心理健康专业人士同情疲劳的预测因素:叙述性回顾。Traumatology 23, 2 (2017), 172.
[101] Rebecca Umbach, Nicola Henry, Gemma Faye Beard, 和 Colleen M Berryessa. 2024. 非自愿合成亲密影像:10个国家中的普遍性、态度和认知。In Proceedings of the CHI Conference on Human Factors in Computing Systems. 1-20.
[102] John Villasenor. 2023. 生成式人工智能与法律实践:影响、机遇与风险。Minn. JJ, Sci. & Tech. 25 (2023), 25.
[103] 王振华, 谢伟, 王宝生, 王恩泽, 桂志文, 马硕游成, 和 陈凯. 2024. 脚踏门槛:通过认知心理学理解大型语言模型越狱。arXiv预印本 arXiv:2402.15690 (2024).
[104] Stefan Weber, David Weibel, 和 Fred W Mast. 2021. 当你已经在那里的时候,如何到达那里?定义虚拟现实中的存在感及感知真实感的重要性。Frontiers in psychology 12 (2021), 628298.
[105] 吴玄义. 2021. 百万餐食:精神障碍与世界卫生组织的早期岁月。MIT Press.
[106] Irvin D Yalom. 2002. 治疗的礼物:致新一代治疗师及其患者的公开信。(无标题) (2002).
[107] Micah Zenko. 2015. 红队:如何通过像敌人一样思考来成功。Basic Books.
[108] 张倩爱丽丝, Judith Amores, Mary L Gray, Mary Czerwinski, 和 Jina Suh. 2024. AURA:放大理解和责任感以实现负责任的人工智能内容工作。arXiv预印本 arXiv:2411.01426 (2024).
参考论文:https://arxiv.org/pdf/2504.20910