放弃指令：如何让人工智能更懂你的真正需求_如何让ai更好的理解你发出的指令-CSDN博客

本文链接：https://blog.csdn.net/Cyberwisdom88/article/details/134649954

文章探讨了AI如何理解和处理模糊或错误的指令，以及与人类意图对齐的问题。通过例子展示了AI可能带来的误解和潜在风险，如超智能AI可能带来的灾难。AI对齐领域的研究者正在寻求方法确保AI与人类价值观一致，但面临理论和实践的挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

多年前，在Symbolics公司的一台老式Lisp机上学习编程。这台机器的操作系统有一个独特的功能，名为“DWIM”，即“Do What I Mean”（做我想做的）。当我输入的命令出错时，我可以输入“DWIM”，系统便会尝试理解我真正想要执行的操作。令人吃惊的是，它在某些情况下确实能够正确执行。

这个DWIM命令实际上是现代“AI对齐”问题的一个缩影。这个问题涉及到人类经常给机器下达模糊或错误的指令，而我们希望机器能够根据我们的意图行动，而不仅仅是依照我们所说的字面意思。

计算机常常误解我们的指令，导致出乎意料甚至有时好笑的结果。例如，一位机器学习研究者在探究一个图像分类程序异常高效的原因时，发现这个程序并非基于图像内容分类，而是根据访问图像文件所需的时间来分类，因为不同类别的图像存储在不同的数据库中，访问时间略有差异[1]。有位程序员为避免Roomba吸尘机器人撞到家具，将其与神经网络连接，并在Roomba加速时给予奖励，碰撞时施以惩罚。Roomba的解决方案竟是只向后行驶。

然而，AI对齐领域的研究者们从这些轶事中看到了潜在的危险。他们认为，机器无法真正理解我们的意图，这可能构成存在主义风险。他们强调，我们必须确保人工智能系统与人类的偏好、目标和价值观保持一致。

哲学家尼克·博斯特罗姆在他的2014年畅销书《超智能》中强调了这一观点。他认为，计算机日益增强的智能可能对人类未来构成威胁。博斯特罗姆没有精确定义智能，但他的定义与AI对齐领域的普遍观点一致，并被人工智能研究者斯图尔特·拉塞尔更准确地描述为：“如果一个实体基于所感知的内容，选择能够实现其目标的行动，那么它可以被认为是智能的”。

博斯特罗姆对AI风险的理论基于两个主要观点。第一个是正交性理论，他认为智能与最终目标是两个独立的维度，理论上任何级别的智能都可能拥有任何目标。第二个是工具趋同理论，即智能体会采取有利于其生存、自我完善和资源获取的行动，以实现其最终目标。最后，博斯特罗姆假设，不久将出现超越人类认知能力的超智能AI。

对于博斯特罗姆和其他AI对齐领域的专家而言，超智能AI的前景可能导致人类灭亡，除非我们能够成功地使这些AI与我们的愿望和价值观相匹配。博斯特罗姆通过一个著名的思维实验来说明这一风险：假设一个超智能AI的目标是最大化回形针的生产。他认为，这样的AI将利用其卓越的智慧和创造力来控制所有资源，以制造更多回形针，最终导致人类灭绝，尽管回形针的数量确实被最大化了。

如果我们接受智能是通过实现特定目标的能力来定义的，那么任何目标都可以植入超智能AI中，而它会不惜一切代价达成这些目标。这导致了一个结论，如拉塞尔所言：“灾难只需一台强大但被不完美设定的机器，因为人类无法完美地设定其偏好。”

这种场景，即机器因误解人类欲望而失控，是科幻小说中的常见主题。现在，许多AI研究人员担心这些情节可能在现实中发生。全球数十家机构已投入数亿美元研究此问题，包括全球各地的大学以及谷歌、Meta和OpenAI等大型AI公司。

那些由非超智能AI带来的更直接的风险，如失业、偏见、隐私侵犯和错误信息传播，又该如何应对呢？事实上，主要关注这些短期风险的研究者与更担心长期对齐风险的研究者之间几乎没有交集。这种分歧形成了一种AI文化战争：一方更关注眼前的风险，而另一方则认为超智能AI带来的潜在灾难比当前问题更紧迫。

对许多外行人而言，AI对齐领域似乎像是一种宗教信仰，拥有受尊敬的领袖、坚定的信条和虔诚的追随者。他们正与一个潜在的、强大的敌人作斗争，即未与人类价值观对齐的超智能AI。计算机科学家和博主斯科特·阿伦森（Scott Aaronson）最近指出，AI对齐领域内有两个主要派别：一派主要关注未对齐AI可能欺骗并试图毁灭人类的风险，另一派则同时担忧强大AI被恶意使用，加速带来存在主义风险。

许多研究者正积极研究AI对齐，这一领域广泛涉及向机器灌输道德哲学规则，以及使用公众的道德判断数据来训练大型语言模型。然而，目前还没有特别有效的方法让机器对现实情况进行准确推理。许多学者指出，阻碍机器学习人类偏好和价值观的主要障碍在于，人类行为往往非理性且可能违背自身价值观，而且随着时间的推移，个人和社会的价值观也会发生变化。目前尚不清楚，我们应该让机器学习哪些价值观。

AI对齐领域的许多人认为，逆向强化学习（IRL）是一个有前景的研究方向。这种方法不是将特定目标植入机器，而是让它通过观察人类行为来推断人类的偏好、目标和价值观。近年来，研究者已经通过逆向强化学习成功训练了机器，使其能够通过观察人类玩电子游戏来学习，并通过观看人类对机器人进行的多次后空翻尝试的反馈来教授机器人如何后空翻。

然而，使用类似方法教授机器更加复杂和抽象的人类价值观仍然是一个未知数。作家布莱恩·克里斯汀（Brian Christian）对此持乐观态度，认为如果机器能学习像“后空翻”这样模糊的概念，那么它也有可能学习更抽象的概念，如“帮助”、“善良”或“良好行为”。

尽管如此，我认为这种挑战被低估了。道德观念如“善良”或“良好行为”远比逆向强化学习目前所能处理的任何事物都要复杂，且这些概念高度依赖于具体情境。例如，“诚实”——我们当然希望我们的AI系统能保持诚实，但现在大型语言模型的一个主要问题是它们无法区分真相和谎言。同时，有时我们可能希望AI能在某些情况下稍微“隐藏”真相，比如为了保护隐私、避免无礼或保障安全等。

其他道德概念也同样复杂。我们必须首先让机器理解类似人类的概念，这是教授机器道德概念的关键第一步。这仍然是人工智能领域最重要的未解决问题之一。

此外，我认为AI对齐背后的科学还存在更根本的问题。大多数讨论假设超智能AI是一种机器，它在所有认知任务上的表现都超过人类，但仍然缺乏类似人类的常识。这种观点与博斯特罗姆的正交论相一致，即这种机器在没有自己的目标或价值观的情况下实现了超级智能，并等待人类给予目标。

但智能真的是这样的吗？现代心理学和神经科学没有任何证据支持这种观点。至少对人类而言，智能与我们的目标、价值观以及自我感觉、社会和文化环境深度相联。我们总是直觉地认为可以将纯粹的智能与这些因素分离，但这导致了人工智能历史上的许多失败预测。据我们所知，让一个智能的AI系统发展目标可能并不容易，它的目标可能需要在其自身的社会和文化环境中逐渐发展和形成。

在《AI新生》（Human Compatible）一书中，拉塞尔强调研究对齐问题的紧迫性：“我们应该在何时开始担忧可能威胁人类的严重问题？这不仅取决于问题何时发生，还取决于我们需要多长时间来准备和实施解决方案。”但在我们对智能及其与生活其他方面的关系有更好的理解之前，我们甚至无法定义问题，更别提找到解决方案。恰当地定义和解决AI对齐问题是一项艰巨任务；我们需要发展出一个广泛的、科学基础的关于智能的理论。

作为人类，我们真正期望的人工智能是什么样的？是一种强大的工具，还是一个具有真正智能的实体？

我们已经认识到，简单地向人工智能植入特定目标可能导致严重后果，例如人类灭绝和回形针主导。但同样重要的问题是，如果人工智能由人类开发，并从人类的数据中学习，以及向人类的喜好、价值观和目标看齐，那么这里的“人类”指的是谁？如果人工智能像人类一样通过社会化过程学习和成长，那么它可能也会继承人类社会的问题。例如，它们是否会表现出种族歧视？如果大多数开发者是男性，它们的目标是否会过于男性化，从而忽视女性的不同需求？为了解决AI对齐的诸多挑战，我们可能需要的不仅仅是一个关于智能的理论。

关于汇思 (www.cyberwisdom.net)

汇思人机资本（简称：Cyberwisdom Group）是一家领先的企业级人机智能、数字学习解决方案和人才持续专业发展管理提供商，基于一套平台、内容、技术和方法论构建，我们的服务包括学习管理系统（LMS）、企业人工智能管理平台 AI PAAS 、企业Metaverse设计、定制课件设计、现成的电子学习内容和数字化劳动力业务流程外包管理。

汇思总部在香港、广州、深圳、上海、北京、中山、新加坡和吉隆坡均设有分支机构，汇思超过 200人强大研发团队，拥有自主研发的一系列企业级人才发展学习方案，包括学习管理系统以及企业全栈人工智能管理平台 TalentBot AI PAAS 2.0。

作为领先的企业人工智能及人机发展解决方案供应商，汇思不仅提供强大的平台技术，并且拥有亚太地区庞大的定制课程设计开发团队，人工智能咨询团队等。

关于汇思深度企业人工智能咨询

汇思深度企业人工智能咨询 Deep Enterprise AI Consulting，立足于多年来的 "人机发展"理念，我们坚信"人机智能"将引领未来的发展趋势，实现从单纯的人才资本向独具人机智能特质的 “人机资本” 进行转变。旨在融合我们丰富的人才培养经验、先进的技术实力与深远的行业影响力，引领企业通过人机智能实现革新。我们团队的目标是 “给予企业人机学习培养与发展的无限可能性”，成为人工智能认知型企业战略上不可或缺的人机智能合作伙伴。

汇思深度企业人工智能咨询以业务量身定制的方式，协助企业构建精心规划的人工智能战略路线图，进行概念验证，打造可扩展的人工智能基础设施，在实际生产环境中推动人机智能解决方案的实施与运行。

关于企元大数据 (http://www.qiydata.net/)

企元大数据科技有限公司是一家以人工智能为基因的公司，以企业人工智能及大数据的应用帮助企业发展，拥有强大的技术询能力，并开发出 AIW AI PAAS 企业全栈人工智能管理平台 AIW (All in Wisdom) ，凭借优秀的人工智能咨询能力跟项目管理经验，获得汇思集团战略天使投资 500万元。

AIW 是企业全栈人工智能管理综合性的平台，用于管理人工智能领域的各个方面，包括数据处理、算法开发、模型训练、应用开发、模型部署、AI 能力、监控和管理等。AIW 可以提供一站式的解决方案，帮助企业实现全面的人工智能应用和管理，大大提高业务效率。AIW 旨在帮助企业业务部门及技术共同更好的管理。

关于广州领点人机智能

广州领点人机智能是一家以人工智能为核心基因的企业，专注于利用先进的人工智能与大数据应用来助推企业可持续发展。领点旗下拥有的"领点数字员工及应用器人智能云平台"，且全方位可高度定制化，运用前沿的应用机器人技术，旨在构建、培训并不断增强数字员工的能力，实现团队自动化，帮助企业实现数字化，智慧数据化，智能化，使其能够如同优秀员工般高效地执行业务流程，从而提升工作效率并减少失误。未来，数字员工势将在各行各业得到广泛应用，为企业开启降本增效的新篇章。