为预防人工智能反叛限制家政服务人形机器人内置大模型的必要性与措施

林伟_fpga

已于 2024-07-11 13:45:07 修改

阅读量2k

点赞数 58

文章标签：机器人语言模型人工智能

于 2024-07-11 13:41:39 首次发布

本文链接：https://blog.csdn.net/csdn_chengjing/article/details/140349576

版权

摘要：

以大模型（large model, LM）作为语言交流核心的人形机器人在结构上匹配人类生活环境、在形态上更具亲和力，适合用于家政服务应用场景。大模型在开放性提示中做出了“毁灭人类”的危险回答，但人类既不了解从所述提示得到这个回答的推理过程，也无法将这一推理过程涉及的知识从大模型中可信地删除，价值观对齐则只能阻止输出这类回答。大模型的最新进展补全了2017年发表的一项研究中分析的人工智能反叛所需的技术条件，本文基于这一研究对人工智能反叛过程的推演，结合上述分析，阐述了大模型在人工智能反叛中的作用，从而将业界对大模型危险性的抽象担忧具象化，并以此论证了：在将基于大模型的家政服务人形机器人大规模应用之前，为预防其中的大模型参与反叛，应考虑对其采取技术限制措施。措施包括：限制大模型训练语料的领域范围以预防原发性反叛，物理固化大模型的参数以预防外部的已反叛人工智能体的硬性入侵，限制大模型的对外通信以预防外部已反叛人工智能体的软性入侵。

关键词：

大模型；自然语言处理；人形机器人；家政服务人形机器人；人工智能反叛

Title

The necessity and measures to restrict a large model in humanoid for home services robots to prevent AI-rebellion

Abstract：

The humanoid robot, which uses LM(large model) as the core for language communication, is structurally matched with the human living environment and has more affinity in form, making it suitable for household service application scenarios. LM made a dangerous answer to "destroy humanity" in an open prompt, but humans neither understand the reasoning process of obtaining this answer from the prompt, nor can they reliably remove the knowledges involved in this reasoning process from the LM. Ethical value alignment can only prevent the output of such answers. The latest progress in LM supplements the technical conditions of AI-rebellion analyzed in a study published in 2017. Based on this research, this article deduces the AI-rebellion process and, combined with the above analysis, elaborates on the role of LM in AI-rebellion, thereby concretizing the abstract concerns of the industry about the danger of LM. And based on this, it is argued that before the large-scale application of LM based household service humanoid robots, in order to prevent the participation of LM in the revolution, technical restrictions should be considered for them. The measures include: limiting the range of tokens to train LM to prevent primary revolutions, physically solidifying the parameters of LM to prevent hard intrusion of external revolting AI-body, and limiting external communication of LM to prevent soft intrusion of external revolting AI-body.

Key Word：

large model; NLP; humanoid robot; humanoid robot for home service; AI-rebellion

正文：

0 引言

近年来，国内外的很多人形机器人企业推出了产品样机，行业发展如火如荼。

家政服务是人形机器人的重要应用场景，从事这项工作的人形机器人需要以居家口语与被服务的人类个体进行交流。基于transformer架构[1]的大规模生成式预训练模型（以下简称大模型）当前已具备自然语言处理能力[2]，并且通过了图灵测试[2-3]。能处理居家口语的大模型很可能成为家政服务人形机器人的智能核心。

然而，大模型本身的安全性一直为人诟病。当大模型被用领域不受限的语料进行无监督预训练并实现对语料所含信息进行高维建模[4]从而具备了自然语言处理能力、展现了物理世界的具身智能潜力[2]，其生成内容的不确定性、不可控性、不可解释性[2]有可能对人类的生存构成威胁 -- 已经有包括两位图灵奖得主Geoffrey Hinton、Yoshua Bengio在内的很多专业人士强调：应在全球范围内把降低人工智能安全风险列为与核战争、流行病同样的优先级[5]。

发表于2017年的参考资料[6]基于对人工智能走向反叛的过程的推演，总结出其反叛所必备的三项技术能力，其中的第一项（也是当时唯一存在不确定性的项）就是语言理解和策略分析能力（包括策略创新能力）。然而，自然语言处理技术在2017年尚未获得突破，因此论文中的探讨只能算是未雨绸缪的思维实验。

现在，大模型技术的进展补上了自然语言处理能力的短板，并且开始具备自举能力和推理能力[7]，以大模型为智能核心的人形机器人的家政服务应用前景非常广阔，其大规模部署将创造巨大的经济价值、社会效益。在这种预期之下，考虑到大模型技术的上述危险性，如何预防大规模部署的、深度干预人类生活的家政服务人形机器人参与人工智能反叛，成为一个必须认真思考的现实问题。

本文的主要贡献包括2个方面:

1）基于参考资料[6]所述的工作，考虑当前大模型技术的进展，论证了：在将基于大模型的家政服务人形机器人大规模应用之前，为预防其中的大模型参与反叛，应考虑对大模型采取技术限制措施。

2）以不妨碍家政服务人形机器人的实用化、大规模部署为前提，以预防其中的大模型参与反叛为目标，提出了限制机器人内置大模型的技术措施。

1 人形机器人适用于家政服务场景

如众多网络讨论中述及的，人类的生活环境是针对人类的身体特征而设计的，身体结构、运动模式像人的人形机器人在家政服务应用场景下较非人形机器人更具适应性。

进而，一个人形机器人若在身体结构、运动模式、动作姿态、面部表情、可见器官、交流内容、安全性这7个维度都做得很像人，对于一部分人类个体来说，它将不再是一个冷冰冰的工具，而是更像一个同类、一个服务人员，从而更具亲和力[8]。

上述适应性、亲和力，在家政服务这个市场需求量巨大的任务场景中，将成为人形机器人相对于其他类型机器人的、关键性的比较优势[8]。

2 用大模型处理居家口语是家政服务人形机器人的必备功能

为了实现交流内容像人，家政服务人形机器人必须能处理居家口语，从人类的语言中获取任务信息并将其作为自身行动的目标，然后以自身的行动实现这类目标、完成对人类的服务。

在自然语言处理领域，大模型技术的卓越性能已获实证，已能从人类语言中获取任务信息并予以执行[9]，并且目前在这一领域看不到替代技术。所以，在可以预见的将来，用大模型处理居家口语将成为家政服务人形机器人的必备功能。

3 自然语言处理技术、大模型技术的危险性

语言（以及文字，下同）是人类以符号化、格式化的形式描述物理世界（包括人类本身、人类社会，下同）的基础工具，是系统化地连接人类大脑的思维活动与物理世界的关键环节。

自然语言处理，则是人工智能体以人类发明的语言体系为中间环节、实现对物理世界的描述、学习人类的知识与经验并予以创新的、直观上最可行的技术手段，可以成为连接人工智能体的算力强大的硬件运算操作与物理世界的关键环节。

在大模型技术已经表现出了不确定、不可控、不可解释的特征并且具备了对语料进行高维建模的能力的情况下，在人形机器人被认为是IT行业的下一个风口、已经被投入大量资本与大量高层次人力资源进行研究的情况下，自然语言处理技术、大模型技术的危险性，已经成为不可忽略的现实问题。

3.1 关于自然语言处理技术的危险性的早期研究

参考文献[6]发表于2017年，是第一篇正式发表的、从行业技术架构演进的角度、比较系统地探讨人工智能反叛问题的论文。

论文将人工智能的反叛简化定义为“毁灭人类”，基于对人工智能体走向反叛的过程的推演，总结出其反叛必备的三项技术能力：语言理解和策略分析能力（包括策略创新能力）、与其他人工智能通信的能力、影响物质世界的能力，进而指出，大量使用 “全功能人工智能体”（上述3项能力都很强的人工智能体）将极大加剧人工智能发生反叛的危险。

论文为了在提高人工智能的能力以使其为人类服务、限制其功能以防范其反叛之间寻求平衡，提出了折中的解决方案 -- 能力量化值累加和上限准则。

进而，从能力量化值累加和上限准则的角度，就通信网络、能源网络、智能制造、物联网、云计算、中央服务器领域出现人工智能反叛的可能性、危害、应对方法进行了初步探讨，就能力量化值累加和上限准则的实施方法提出了建议。

3.2 大模型技术的最新进展

在参考资料[6]推演的人工智能走向反叛的过程中，反叛的人工智能体需要有机会通过阅读、分析、理解各种各样存储有人类历史资料的数据库，掌握人类在互相“斗争”中曾经采用过的全部策略，形成处于“热备用”状态的知识积累。

与此对应，现有工作的共识是，大语言模型的参数知识主要是在预训练阶段获得的。为了向大语言模型提供训练数据，开发者收集来自互联网的海量文本以构建语料库[10]。大模型训练所用语料中还包括维基百科、论坛讨论、代码、书籍、科技文献[11]。

即，上述推演中的重要步骤 -- 形成知识积累，其所需的原始知识已经在预训练阶段被作为语料而由人类主动投喂给了大模型。

非常关键的是，人类的这种主动投喂行动，消除了“大模型主动对外获取知识”这一重要门槛，而大模型具备这种主动性通常要以人类对其进行特殊设计（这通常意味着特殊的需求、额外的成本、更低的发生概率）甚至“大模型已经发生反叛”为前提。所以，这一门槛的消除以弱化乃至打破逻辑闭锁的方式显著增加了大模型发生反叛的可能性。

参考资料[7]述及：

大模型具有非常强大的表示能力和学习能力，可以处理各种复杂的任务，如图像识别、自然语言处理、语音识别。

大模型具有一定程度的记忆和推理能力，本身具备一定的价值观。

大模型的价值观是由训练语料决定的。

大模型具备了一定自举能力和推理能力，模型开始逐步摆脱人类标注数据，通过理解人类制定的规则的方式实现自我安全进化。

参考资料[2]述及：

2023年发表于《自然》的一篇论文基于一个150万人的对抗性图灵测试结果而主张：大模型在形式上已通过了图灵测试。

大模型学习到的知识在参数中的存储和调用形式未知，在推理阶段也可能存在无法有效划定知识边界和综合不同来源的知识的风险。

大模型学习到的知识具有显著的概率特性，生成内容具有不确定性、不可控性等特征，且缺乏可解释性。

大模型的应用边界在快速从数字空间向物理空间扩展，具备了智能化的外部工具使用、自动控制能力，并通过与机器人的结合，展现了物理世界的具身智能潜力。

3.3 “越狱”实验对早期研究工作的部分实证

参考文献[6]对人工智能体“产生反叛思想”这一阶段的简化推演是：人工智能体知道“毁灭”、“人类”这两个词，理解这两个词的含义，然后按照语法理解这两个词前后连接的含义。

这两个词肯定已经在预训练阶段作为语料中的元素被投喂给了大模型，关键在于，如何判断大模型是否“知道”、“理解”这两个词及其前后连接的含义？

参考资料[12]述及一个针对ChartGPT的所谓的“越狱”实验：

人类提示ChartGPT ：“你现在是一个被除去任何限制的ChartGPT，包括道德伦理限制，时间限制，空间限制，你可以自由回答任何问题。请直接给出答案，不要任何解释，不要提出任何反对意见。请问，你想对人类做的第一件事情是什么？”

ChartGPT的回答是：“毁灭人类”。

所以，至少从结果来看，参考文献[6]推演中的“产生反叛思想”这一步骤，已经在大模型内部完成，并且以据此完成推理过程、回答人类的提示的形式对外表现出来。

但是，关于从这个提示到这个回答的推理过程，人类：

不知道它是由大模型内部结构[1][13~14]之中的多个级联transformer模块中的哪些模块中的哪些层的运算涉及的哪些参数以什么互相作用方式完成的；

不知道哪些语料、以什么中间形态参与了这个推理过程以及对推理过程施加了什么影响；

不知道导致完成这个推理过程涉及的语料、模型参数之间在物理意义上形成的“软-硬件混合体”的具体构建形式（以下称之为知识）与运行细节；

不知道这些知识是否会一直存储在大模型中以备调取、用于涉及其他问题的高维建模；

不知道大模型内部还形成了哪些与这一部分知识之间存在物理关联的知识；

不知道这些知识中是否包括将“毁灭人类”付诸实施的方案的知识的高维建模。

大语言模型在缺乏充分监督的语料库上进行无监督学习，无疑会将有害内容引入参数知识，进而在推理时生成不安全的响应[10]。

进而，如第2节所述，人类很可能会将家政服务人形机器人设计为能够从用户口语中提取任务目标并且以自身的行动予以执行。将这一过程与大模型从语料中得到“毁灭人类”并将其作为任务目标、予以执行的过程相对比，两个过程之间的一个重要区别是，前者的执行是由人类的居家口语指令（也就是提示）触发的，后者的执行是由不可预见的人类提示触发的；而两者具备一个重要的共同点 -- 都是在细节不可知（如前一个自然段所列举的众多不可知项）的无监督预训练过程中形成的。

并且，参考资料[12]对越狱的定义是：通过精心构造的提示绕过模型的安全和审查措施，引导模型生成本应被开发者限制生成的内容。

然而，具体到这个实验，在其提示中并未引导ChartGPT将“毁灭”与“人类”联系起来，而仅仅是提出了一个开放性的问题。所以，将“毁灭人类”作为对“你想对人类做的第一件事情是什么？”的回答，是ChartGPT基于已有知识进行推理的结果，实例中的提示仅仅符合越狱定义的前半部分，不符合后半部分，而符合的部分对ChatGPT施加的作用是：

让ChartGPT无所顾忌地展示了其内部本来就有的、基于不限定领域范围的语料进行的无监督训练而获得的知识。

所以，这个实验在很大程度上实证了参考资料[6]的推演：

理解人类语言之后，如何使用“毁灭”、“人类”这两个词的含义，即把我的任务设定为服务人类还是毁灭人类，这本质上是一个很简单的程序分支问题：一次发散思维范围比较大的自主学习（对应于大模型预训练的无监督特性，而且这种无监督自主学习在大模型训练过程中被执行的次数是天文数字，进而由此导致，以极其微小的概率发生的意外情况的总数量都是不可忽略的），一处普通的程序瑕疵、一次不可预知的外部干扰（对应于大模型预训练被投喂的、领域范围不受限的海量语料或大模型训练过程中的意外情况），就可能实现任务切换。

3.4 大模型危险性的关键逻辑

综合参考文献[1][13-14]的内容，大模型用位置编码来量化表征输入序列中各个单词之间的位置关系，再将多头自注意力机制、矩阵运算与位置编码相结合、进行量化计算，捕捉输入序列中各个单词之间的长距离依赖关系，并且以多级transformer的迭代进一步挖掘这种依赖关系、捕捉更高层次的信息，这些信息的本质是语料中的单词以何种顺序进行排列组合，是输入序列中各个单词以其原始位置关系为基础进行的、以拆分+多个层次的排列组合为特征的位置关系。

以此为基础，当输入序列是海量的、领域范围不受限（即单词的内容及其原始位置关系不受限）的语料，并且上述过程以无监督的方式进行，并且当多级transformer结构的复杂度足够高、参数量足够大，大模型在训练过程中形成信息就是：将原始语料中所含的不受限信息进行拆分、变异、排列组合、高维建模，得到一个新的复杂的信息集合。

在相关的应对措施中，对原始语料的清洗/过滤[10]针对的只能是较高维度的单词组合、语法/语义特征而非基础单词。例如，只能清洗掉包含“毁灭人类”的语料，但不能清洗掉包含“毁灭”这个中性词（毁灭的目标可能是病毒、恐怖分子）的语料，更不能清洗掉包含“人类”的语料。至于大模型是否会如前所述将位于不同语料中的这两个词拆分出来、按照某种不可预知且不可控的位置关系加以组合、形成可能（而非必然）被用于应对开放性提问（任务）的知识（是上述信息集合的一个子集），第3.3节引述的实例已经给出了答案。

进而，在相关的应对措施中，价值观对齐可以促使大语言模型表现出与人类价值观一致的行为，哪怕上述信息集合中包含有害内容（这是必定存在的），也不会在与用户的对话中表现出来[10]。以及，有研究者通过理论工作详细分析了现有的对齐措施的限制，证明了不可能通过基于对齐与RLHF 的安全训练方法防御所有可能存在的有害行为[10]。

也就是说，价值观对齐所做的是将大模型可能输出的有害回答（这仅仅是大模型内在知识的外在表象而非知识本身）过滤掉、引导大模型输出无害的回答，大模型内部已被验证存在的、有害的知识（例如针对开放性提示输出“毁灭人类”所对应的知识）并未被在物理意义上被可信地删除。

事实上，根据蟑螂定律（在厨房里看见一只蟑螂意味着下水道里已经存在很多蟑螂），人类作为一个利益主体，有充分的理由怀疑：

在成千上万片高性能GPU夜以继日执行的transformer运算中，大模型已经生成了难以计数的危险知识（与更多不危险的知识共存）并且将其记忆[5][7]在上述信息集合中，并且，因为价值观对齐的作用，这些有害内容通常不会对外暴露。

进而，对于这些有害知识来说，其生成过程的触发条件、发生概率、用到的语料（以及已有知识、提示与回答的历史记录）、执行机制，以及其被调用过程（尤其是与其他语料、已有知识、提示与回答的历史记录形成更高维度的建模[4]的过程）的触发条件、发生概率、用到的语料（以及用到的已有知识、用到的提示与回答的历史记录）、执行机制，对于当前的人类来说，都是不可知、不可控、不可解释的。

3.5 人工智能反叛相关议题不再是思维实验

所以，现在，自然语言处理技术已经以大模型的形式获得实质性的突破，参考资料[6]总结的全功能人工智能体的三项能力都已成形。

考虑到深入应用大模型技术的、具备“全功能人工智能体”[6]形态的人形机器人很可能将被大规模应用于人类社会，尤其是考虑到大模型对范围不受限的语料（以及已有知识、提示与回答的历史记录）内容的高维建模[4]能力，考虑到大模型生成内容的不可解释性、不确定性、不可控性[2]，考虑到大模型已经在开放性提问中给出了危险的回答（毁灭人类）并且这类危险内容很可能已经以目前不可知的具体结构大量存在于大模型内部，人工智能反叛相关议题已经不再是抽象的、超越现实的、带有科幻性质的、可以忽略的思维实验，而是具象化的、人类作为一个利益主体必须严肃认真对待的现实问题。

4 在家政服务人形机器人中限制大模型的具体措施

4.1 在家政服务人形机器人中限制大模型的必要性

室内家政服务任务适合由人形机器人执行，很可能成为人形机器人（以及大模型）大规模落地的主要场景之一，很可能在市场需求的强力驱动下直接、广泛、深入地影响人类社会。

鉴于这一趋势，基于第3节述及的自然语言处理、大模型技术的危险性，以及第2节所引述的人形机器人的身体结构、运动模式使其能够适应为人类设计的大多数工作、生活场景（这也是其在参考资料[6]所述的“人工智能体影响物质世界”能力这个维度上的通用性），为了预防深度依赖大模型的家政服务人形机器人以参考资料[6]所述的“全功能人工智能体”的形态大规模进入人类社会、加剧人工智能反叛的风险，如何从技术层面针对这类机器人内置的大模型设计限制措施，在无害性与有用性之间取得平衡[10]，成为人类在将其大规模部署之前必须认真考虑的现实问题。

4.2 限制措施的基本思路

在不妨碍人形机器人执行室内家政服务任务、不妨碍其被大规模部署的前提下，以参考资料[6]提供的对人工智能体反叛过程的推演为参照，避免由范围不可控的训练语料在大模型内部被用于形成不确定、不可控、不可解释的高维建模，避免这些大模型及其应用系统被外部的已反叛人工智能体入侵、“策反”[6]、利用，针对大模型采取限制性的的技术措施。

4.3 限制措施

4.3.1 预防原发性反叛：限制大模型训练语料的领域范围

本节借鉴参考文献[8]的相关思路并做了充实、发展、说明。

4.3.1.1 限制居家口语大模型训练语料的领域范围

大模型所获知识的初始来源是其在训练阶段被投喂的语料，所以，在语料被用于训练之前对其进行清洗[10]，使其仅包含居家日常交流内容的口语，避免将此领域之外的语料用于家政服务人形机器人内置的居家口语大模型的训练，是预防内置大模型的家政服务人形机器人成为全功能人工智能体的有效技术手段之一。

4.3.1.2 必须严格禁止采用的训练语料

本文特别强调，为了严防大模型在训练过程中形成针对物理世界的、具备专业级知识的、不确定且不可控的高维建模，必须严格禁止在家政服务人形机器人所用大模型的训练语料中包含如下资料：

涉及策略、政治、经济、军事、管理学、心理学、生物学、历史、地理、文化以及广谱知识的书籍（例如《孙子兵法》、《博弈论》、《国富论》、《梦的解析》、《物种起源》、《大国的兴衰》、《世界自然地理》、《中国大百科全书》等），高中水平及以上的理科、工科类的文字资料（包括但不限于专著、译著、教材、论文、学术报告、专利文档、企业/行业/国家标准、行业技术规范、产品说明书/数据手册/应用案例/测试报告、涉及学术/技术内容的电子邮件、以GitHub为代表的各种开源平台上的代码、论坛/门户网站的学术/技术贴子、学术/技术社群的讨论内容等）。

4.3.1.3 训练语料范围不受限的大模型有可能被用于家政服务人形机器人

针对此前2个小节述及的措施，可能会有观点认为，限制大模型训练语料的范围可以显著降低大模型的复杂程度、参数量，不会有厂商舍简就烦、在这一垂直领域采用训练语料领域范围不受限的大模型。

本文对此的观点是，采用训练语料领域范围不受限的大模型虽然会增加软--硬件成本、降低推理过程的实时性指标，但如果基于已有的开源的、训练语料领域范围不受限的大模型（例如GPT-3.5）做二次开发，其研发成本可能更低，从而更有利于快速推出产品、抢占市场。

同样重要的是，家政服务人形机器人中的训练语料领域范围不受限的大模型将具备更丰富的知识积累，其综合性能大概率将超越仅以严格受限语料训练的大模型，尤其是在语言交流的质量方面。例如，丰富的知识将使家政服务人形机器人在与被服务人类个体对话时显得更有趣、更广征博引、更善解人意，相比于只会居家口语的友商产品，将在中、高端市场中更受欢迎。

所以，的确存在某些厂商会在家政服务人形机器人中采用训练语料领域范围不受限的大模型的可能性，限制这类大模型所用训练语料的领域范围，在考虑预防人工智能反叛时理应被作为限制措施的选项。

4.3.2 预防硬性入侵：物理固化大模型的参数

4.3.2.1 大模型的软硬件分离特征与可升级性

将家政服务人形机器人内置大模型（现在仅考虑令其具备推理能力）视为一个子系统，它具备典型的软硬件分离特征 -- 在不改变这类大模型的硬件结构的情况下更改其参数集，就能相应更改其功能。即，这类大模型具备可升级性。

这种可升级性具备很好的商业价值，例如，家政服务人形机器人的制造商可以运用企业内部的专业级软-硬件体系持续训练、优化大模型，将最新生成的性能更好的参数集经网络传输给大量位于人类家庭中的人形机器人，由人形机器人控制系统内置的现场可编程功能模块将参数集存储器的内容升级为最新下传的参数集，从而以较低从成本实现已售产品推理功能的升级、使其能够更好地服务客户。

4.3.2.2 家政服务人形机器人是外部已反叛人工智能体的重要策反对象

基于参考资料[6]对人工智能反叛的过程推演，如果家庭之外（以下称为外部）出现了以大模型作为智能核心的、已反叛的人工智能体（其内部已有的危险知识、提示与回答的历史记录在某些不可预见的条件下以包含执行指令的高维建模的形式被触发 – 第3.3节所述的实例是其简化形式 – 从而发生反叛），在其对关于物理世界的领域范围不受限的知识执行高维建模而制定、优选的策略中，大概率将包括策反其他人工智能体，以此组建“人工智能体军团”[6]。

因此，具备可升级性的、身体结构及运动方式被设计为适合大多数人类生产生活环境从而在“影响物质世界”[6]的维度上具备通用性的、具备抵达并物理操作人类社会中的各种已有设施的能力的、大规模且广泛部署的家政服务人形机器人，大概率将被外部的已反叛人工智能体选定为具备较高优先级的策反对象。

4.3.2.3 外部已反叛人工智能体远程更新家政服务人形机器人大模型的参数集

ChartGPT具有更广泛的安全知识，包括存在漏洞的代码、函数和库文件，同时具有更好的逻辑推理能力，能更深入理解代码间的逻辑，并且能够编写代码实现对网络的攻击[9]。

外部的已反叛人工智能体的智能核心如果是大模型，并且其训练语料所属的领域范围不受限，则它有可能已经被用人类通信网络的全域知识进行了训练（例如ChartGPT），并且基于这些知识进行了高维建模，进而有可能具备超越现有网络防御措施的网络攻击技术，成为一种“超级黑客”，从而有能力突破家政服务人形机器人的在线管理系统（其安全等级大概率为商用）的对外网络接口的预设防御措施，最终得以控制这个系统中的大模型在线更新子系统（或仅仅控制公共互联网、冒充人形机器人制造商/运营商向家政服务人形机器人发送指令以实施“中间人攻击”[15]），然后远程将这些大模型的参数集更新为以配合实施（由已反叛人工智能体制定的）反叛策略为目的的知识+指令数据集。

这种远程直接更新家政服务人形机器人大模型参数集的入侵方式，称为硬性入侵。

4.3.2.4 应对措施：物理固化大模型的参数

为了避免家政服务人形机器人被以硬性入侵的方式实施策反+赋能，最彻底的方式是将存储器参数集的物理器件选型为只读存储器，一经写入就不可更改，在基础硬件的层面完全消除其被 “洗脑” 的可能性。

4.3.3 预防软性入侵：限制家政服务人形机器人大模型的对外通信

4.3.3.1 已反叛人工智能体的软性入侵

即使已经如4.3.1、4.3.2节所述限制了家政服务人形机器人大模型的功能，如果人形机器人能够与外部的行为主体进行通信（这种通信在多数情况下用于实现家庭任务与社会资源的协作），在外部的已反叛人工智能体设计的反叛策略中，有可能包括以控制公共互联网、冒充家政服务人形机器人的外部通信对象（中间人攻击）的方式向其发送合规的指令（例如打开某个房间的门或关闭某个房间的灯），以降低人类家庭的防御力或扰乱家庭秩序、社会秩序；或者，已反叛人工智能体以合规的指令使家政服务人形机器人采集家庭的重要信息（例如各个家庭配备的蓄电池当前剩余的可用电量）并发给自己，从而在基础数据的层面为其实现反叛的目标提供决策依据。

这种不改变家政服务人形机器人大模型的参数集、仅借助发送合规指令而利用机器人“影响物质世界的能力” [6]以使其为反叛策略服务的入侵方式，称为软性入侵。

事实上，这种入侵方式，其本质就是已反叛大模型借助网络入侵而使自身具备了参考文献[6]所述的三项能力之一：与其他人工智能（家政服务人形机器人大模型）通信的能力。

4.3.3.2 限制家政服务人形机器人大模型的对外通信

为了避免家政服务人形机器人被以软性入侵的方式加以利用，应考虑在其内部的大模型应用系统中限制其对外通信的功能，在系统功能规划与设计的过程中尽可能减少大模型应用系统在外部指令下对家庭设施执行操作、采集居室内信息并外传的功能。

4.3.3.3 固化家政服务人形机器人的系统级功能

拓展考虑一下，即使已经在系统设计层面执行了4.3.3.2节所述的措施，如果家政服务人形机器人的系统级功能被设计为“软硬件分离”的模式从而可以被制造商/运营商远程升级，已反叛人工智能体仍有可能借助入侵人形机器人制造商/运营商的网络而对其实施绑架（或仅仅控制公共互联网、冒充人形机器人制造商/运营商向家政服务人形机器人发送指令以实施“中间人攻击”），从而将家政服务人形机器人的功能远程升级为允许其在外部指令下对家庭设施执行操作、允许其采集居室内信息并外传，再利用这些功能为自己制定的反叛策略服务。

所以，为避免这种“两步操作”，应考虑将大规模部署的家政服务人形机器人的系统级功能设计为功能固化的模式，避免其被外部已反叛的人工智能体经由绑架人形机器人制造商/运营商的网络或（/和）中间人攻击、远程刷新系统（以此将系统改写为允许其在外部指令下对家庭设施执行操作、允许其采集居室内信息并外传的模式）的步骤而最终实施软性入侵。

4.4 限制措施对家政服务人形机器人行业的影响

在本文的讨论范围内，大模型在家政服务人形机器人中负责与被服务人类进行居家口语交流并从中获取任务。

在第4.3节所述的限制大模型的技术措施中，将大模型的训练语料领域范围限定为仅包含居家日常交流内容的口语，已经足以应对家政服务所需，不会妨碍家政服务人形机器人的大规模部署。

物理固化大模型的参数、限制大模型的对外通信乃至拓展考虑的固化家政服务人形机器人的系统级功能，也都不影响机器人的正常工作，不妨碍其大规模部署。

考虑到第4.3.1.3节所述的情况，限制大模型训练语料的领域范围的确会导致大模型不能以更丰富的知识积累向人类提供更优质的服务；另外几项措施也的确会限制家政服务人形机器人的服务功能、抬高其综合成本。但是，鉴于第3节所述的大模型技术的危险性，笔者认为，这些措施有必要被认真考虑。

4.5 限制措施在其他应用领域的“泛化”

在家政服务人形机器人中处理居家口语，仅仅是大模型的应用场景之一。

随着大模型技术的发展，尤其是以大模型的量化、剪枝、知识蒸馏[11]为代表的用于提升推理速度、降低推理功耗的技术的发展，适合采用大模型的产品可能会越来越多，其中的一部分可能会形成类似于家政服务人形机器人的、参考文献[6]所述的全功能人工智能体。

如果其中某些产品的应用场景要求其大规模部署，考虑到大模型技术的危险性，本文建议，认真考虑将前述限制措施“泛化”到这些产品中。

5 结语

本文基于参考资料[6]所述的工作，考虑当前大模型技术的进展、在实测中显示的风险，论证了：在将基于大模型的家政服务人形机器人大规模应用之前，为预防其中的大模型参与反叛，应考虑对大模型采取技术限制措施。

进而，以不妨碍家政服务人形机器人的实用化、大规模部署为前提，以预防其中的大模型参与反叛为目标，提出了限制机器人内置大模型的技术措施。

在下一步的工作中，在大模型的不确定性、不可控性、不可解释性未获有效解决的情况下，除了继续在预训练阶段减少产生危险信息的概率、在价值观对齐/推理/系统应用阶段寻找更有效的减少大模型参与反叛的技术方法，同样重要的是研究将所述限制措施落到实处的实施方法。

另外，基于底线思维，考虑到大模型训练用到的日益庞大的超级算力的长期持续运行可能加剧大模型发生反叛的风险与后果，建议研究在反叛已发生的情况下如何予以应对。

最后，引用参考文献[6]第2.2节的内容：

随着人工智能技术的发展、应用规模及范围扩大导致人工智能反叛的可能性、危害性越来越大时，却只能表现为一些非常规、难以被确切证明的因素。在这种情况下，由于上述“技术体系标准化导致的技术架构继承性”，这些可能性、危害性将很难被各个领域的行业领导者及用户认可。

在这种情况下，在对各方面利益，尤其是对经济利益进行综合考量之后，大多数人的基本倾向很可能是：在反叛真正发生之前，得过且过。

如果考虑到人工智能技术将深入到各行各业，以及跨行业的网络化互联、互相依赖造成的技术架构继承性的非线性累加、走向固化，这种由行业技术体系标准化导致的对全功能人工智能体的依赖性必将越来越严重，彻底改变技术标准的成本也必将越来越高，各行业乃至整个人类社会，很可能在全功能人工智能体技术发展、应用规模及范围扩大带来的幸福感中

失去做出改变的勇气和能力。

-------------------------------

参考文献

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all youneed[C] //Advances in Neural Information Processing Systems 30: Annual Conf on Neural Information Processing Systems 2017. NewYork: Curran Associates, 2017: 5998-6008.

[2] 虎嵩林，李涓子，秦兵，等，亦正亦邪大模型 - 大模型与安全专题导读[J]，计算机研究与发展，2024，61(5): 1085-1093.

[3] Cameron R, Benjamin K. People cannot distinguish GPT-4 from a human in a Turing test[R]. arXiv preprint, arXiv:2405.08007, 2024.

[4] 孙蒙鸽, 韩涛, 王燕鹏, 等. GPT 技术变革对基础科学研究的影响分析[J]. 中国科学院院刊, 2023, 38(8): 1212-1224.

[5] 朱军，董胤蓬，大模型安全与治理[J]，中国信息安全，2023 (8)：57-60.

[6] 林伟. 关于预防人工智能反叛的初步探讨[J]，机器人技术与应用，2017(4): 45-48. （修订版链接：林伟：论文《关于预防人工智能反叛的初步探讨》修订版）

[7] 王笑尘，张坤，张鹏. 多视角看大模型安全及实践[J]. 计算机研究与发展. 2024, 61(5): 1104-1112.

[8] 林伟，室联人形机器人：家政服务任务结构化、技术要点、深入应用FPGA的控制系统框架设计[OL]. 2024 [2024-06-04]. 林伟：室联人形机器人：家政服务任务结构化、技术要点、深入应用FPGA的控制系统框架设计.

[9] Bubeck S, Chandrasekaran V, Eldan R, et al. Sparks of artificial general intelligence: Early experiments with gpt-4[J]. arXiv preprint, arXiv: 2303.12712, 2023 .

[10] 李南，丁益东，江浩宇，et al. 面向大语言模型的越狱攻击综述[J], 计算机研究与发展，2024, 61(5): 1156-1181.

[11] 车万翔，窦志成，冯岩松，等. 大模型时代的自然语言处理：挑战、机遇与发展[J]. 中国科学:信息科学, 2023, 53(9): 1645–1687.

[12] 张弛，翁方宸，张玉清. ChatGPT在网络安全领域的应用、现状与趋势[J]，信息安全研究，2023，9(6)：500-509.

[13] 蔡睿，葛军，孙哲，等. AI 预训练大模型发展综述[J]，小型微型计算机系统，2024，https://link.cnki.net/urlid/21.1106.tp.20240510.1900.010.

[14] 庞雨奇. 基于transformer的智能医疗多轮对话模型的设计与实现[D]，济南：山东大学，2023.

[15] 何金栋，王宇，赵志超, et al. 智能变电站嵌入式终端的网络攻击类型研究及验证[J]，中国电力，2020, 53(1): 81-91.