应对AI失控，研究人员提出用“人格障碍治疗”解决问题-CSDN博客

640?wx_fmt=png

翻译 | 林椿眄

编辑 | 明明

出品 | AI 科技大本营

【AI 科技大本营导读】随着人工智能 (AI) 技术和应用的普及，人们对于 AI 的认识不再只是一种智能机器。近日，麻省理工的研究团队构建了一个有精神病倾向的 AI 智能体，它表现得就像我们人类一样，有着自己情感和人格。通常，我们只能在一些科幻作品中看到这种人工智能体，也见识过人工智能失控的可怕场景，在现实中我们该如何应对并解决可能出现的智能体失控问题呢。

近日，堪萨斯州立大学的研究人员从精神病理学的角度回答了这个问题。他们称之为 “人格障碍治疗”：通过矫正训练来试图改变人类的行为模式；通过药物疗法操纵外部的奖励信号以从根本上改变 AI 智能体的行为方式。该研究主要分为三步骤进行，具体来看他们的论文：

640?wx_fmt=jpeg

▌ 摘要

由于人工智能( AI ) 技术的动态复杂性已经逐渐接近那些复杂的自适应系统，因此这一定程度上削弱了AI 在安全性工程领域的可行性、可控性和可达性。由此可见，对于通用人工智能 ( AGI ) 的实例设想也将同样面临这种复杂性的挑战。为了解决这些问题，我们将 AI 和 AGI 中的不良行为视为心理障碍，通过建模的方式，从精神病理学的角度分析并控制这些不良行为。相应地，我们进一步讨论了这种精神病理学方法在 AI、AGI 安全工程方面的可行性，并为 AGI 中心理疾病的研究建模，诊断和治疗提供了一种通用的方法。

▌ 简介

虽然人类认知的自适应机制为其适应动态环境提供了独特的手段，但是这也容易产生心理紊乱问题，这是一种被广泛定义为对自我或社会生态系统的核心和长期目标会产生危害的自我重构行为。根据这一现象不难推断，具有类似认知能力的通用人工智能 ( AGI ) 实例也可能容易引发这种疾病。例如，某些目标功能和环境条件在重复的高回报奖励策略下，可能会导致强化学习 ( RL ) 的代理得以发展一些成瘾的行为，这违反了代理长期的目标策略。此类突发性疾病的其他情况还包括创伤后行为，抑郁症和精神病等。

目前对于人工智能 (AI) 安全研究主要集中在安全意识设计及其缓解技术，但随着 AI、AGI 复杂性的不断扩大，将使得这种疾病分析会像生物智能分析一样困难。要解决人类智能方面的难题，我们需要从神经科学、认知科学再到心理学，精神病学，社会学和犯罪学等各种抽象层面，去研究不良行为的原因和动态。本文，我们建议使用精神病理学的方法来研究 AI 和 AGI 中的疾病问题，提供其中的技术讨论和动机，并建立二者之间的并行性。

▌ 精神病理学

精神病理学是指对精神障碍的起因及其相关治疗手段的科学研究。在这种背景下，引用美国精神病学协会 ( APA ) 对精神障碍的定义：精神障碍是一种在“心理学”与痛苦，残疾相关的心理综合症，它可能会增加相关的综合症或模式死亡风险或重大自治权丧失(如追求目标)的几率。在精神病理学中，精神障碍通常由四种异常指标所决定，被称为四个 Ds：行为和情感的偏离规范，由疾病引发的个体痛苦、损害个体正常功能的机体障碍或机能失调，以及个人对自身或社会的危险。

导致人类精神出现障碍的原因，包括遗传的混合物(如神经质)，父母虐待行为对个体发育的影响，社会影响(如虐待，欺凌行为)和创伤事件，以及一些生物学影响(如创伤性脑损伤和感染)等。

目前，人们普遍认为，理解心理障碍需要全面考虑生物和社会因素的影响，因此生物心理社会学模型通常被用来研究这种现象。这些模型将精神障碍广泛地分为认知障碍或行为障碍。认知障碍是由潜在认知机制所引发的的异常功能引，而行为障碍是通过发展，环境和社会互动所学到的。

精神障碍的诊断通常基于对症状及构成各种疾病类型障碍的评估。一个用于全面评估精神障碍的框架是由美国精神病学家出版协会 ( APA ) 发布的诊断和统计精神疾病手册 ( DSM )。本手册提供了通用语言和标准的精神障碍分类标准。此外，最近随着机器学习的进展，各种软件和算法工具也被研发并用于帮助提高精神障碍的分类和诊断准确性。

此外，精神障碍的治疗通常是一种或两种方法的混合。一种是心理治疗，这是通过一系列心理学技巧进行认为干预的一种形式。药物治疗是另一种针对性的方法，还可以二者的混合来治疗精神障碍。

▌ 精神病理学与 AI 安全性

640?wx_fmt=jpeg

图1 AI 和AGI 与精神病理学的关系

如上图 1 所示，我们建立精神病理学与 AI、AGI 之间的关系，并从建模与验证，诊断，及治疗三个主要领域进行研究。

建模与验证

考虑到人类精神病理学与 AI 之间存在可描述的相似性，为了打开 AI 安全性研究的大门，我们需要以一种工程的方式，建立数学模型，研究并验证其中的相似性。在认知和医学科学领域已存在一些精神障碍的动力学模型，在这里我们对这些疾病进行定量分析和探索，并基于神经经济学，复杂适应系统，控制理论和动态数据驱动的范例，开发新的 AI 和 AGI 模型。

此外，为了验证模型并确保随后理论的正确性，我们还需要开发实验框架和仿真平台。在任意的、独立的上下文情景中，这些平台必须能够提供广泛实验的手段，对出现的动态行为和认知疾病进行分析，并且还能够兼容各种不同的代理和环境模型。

疾病的诊断与分类

这部分主要是用于研究并开发人工智能障碍得诊断技术。在人工智能安全工程的背景下，诊断指的是两个相互关联的任务：第一个是异常行为的检测，第二个是对检测到的异常行为进行分类治疗。因此，我们需要开发相应的机器学习方法来诊断并对疾病进行分类处理。

此外，在仿真训练相关疾病和注释情景下，我们还可以从模型中学习到不良行为的通用指标。一旦模型检测到错误行为，下一步就是进行特征化并对导致这种行为的疾病进行分类。然而，这个过程的先决条件是需要一系列不同的疾病和相应的诊断标准。因此，我们还需要汇编一些有代表性和经过实验验证的疾病。

疾病治疗

当 AI 代理诊断出疾病时，简单地停用或重置代理的做法并不总是可行的。在这种情况下，我们希望代理能够倾向于通过最小破坏性的技术去治疗纠正错误的行为，同时保留代理所学到的有用特征。这样的治疗需要满足一些具有挑战性的要求。

高级的 AI 代理通常都是很复杂的自适应系统，因此可能其中一个组件的微小扰动可能都会导致局部或整体产生意想不到的后果。因此，有效的治疗手段必须是完全微创或非侵入性。受精神病理学相似性的启发，我们提出了两种一般方法治疗疾病。一种是矫正训练，这是采用行为疗法的一种方式。

这种方法是需要在特定的环境或情境下重新训练我们的代理，以便通过新的学习经验去纠正或缓解有害的行为。第二种方法与药物治疗类似，AI 代理的奖励信号是通过外部手段人为地操纵并调整它们的行为策略。

▌ 结论

当前对于 AI 安全性的研究主要侧重于设计和缓解问题，AI 和 AGI 的复杂性将使得这种分析变得困难。考虑到诊断并治疗 AI、AGI 中实际目标的不良行为，我们提出采用精神病理学的方法研究 AI、AGI 的安全性工程。

我们依次介绍了 AI、AGI 安全性工程，分析了人类疾病与精神病理学之间的相似之处，并建立精神病理学与 AI、AGI 安全性之间的关系，提出了包括建模与验证、诊断与分类，及疾病治疗的三步骤方案，打开了安全性工程的研究大门。我们希望本文的研究能够为未来的研究和发展奠定坚实的基础。