AI会完美的执行我们设定的目标，但这不是一个好消息-CSDN博客

来源：混沌巡洋舰

导读：

科普网站quanta magazine上一篇名为 Artificial Intelligence Will Do What We Ask. That’s a Problem的文，是关于AI与人际交互时，如何满足更好的理解人类需求。该文的核心观点是：通过教机器理解我们真实的欲望，科学家希望避免让它们做我们所要求的事情可能带来的灾难性后果。本文先详述（部分翻译并用自己的话重述）一篇AI伦理相关的文章，之后会根据这篇文章的观点，对当前最热门的时政，进行简要的延伸和议论。

1）当今以目标为导向的人工智能存在局限性

牛津大学哲学家Nick Bostrom在2003年提出了一个现在已经成为经典的思想实验，来说明这个问题。设想一个超级智能机器人，其编程目标看似无害，仅仅是制造回形针。这个机器人最终把整个世界变成了一个巨大的回形针工厂。

现实中，Youtube 为了最大化浏览时间，部署了基于 ai 的内容推荐算法。两年前，计算机科学家和用户开始注意到，YouTube 的算法似乎通过推荐越来越极端和阴谋论的内容来达到目的。有关素食主义的视频导致了有关素食主义的视频。关于慢跑的视频导致了关于跑超级马拉松的视频。” 因此，研究表明，YouTube 的算法一直在帮助人们极化和激进化，传播错误信息，只是为了让我们观看。

人类常常不知道给我们的人工智能系统设定什么目标，因为我们不知道我们真正想要的是什么。“如果你问街上的任何人，‘你想让你的无人驾驶汽车做什么? ’ 他们会说，‘避免碰撞，”’但你会意识到，不仅仅是这样，人们还有很多偏好。” 超级安全的自动驾驶汽车行驶得太慢，刹车太频繁以至于乘客生病。

当程序员试图列出机器人汽车应该同时兼顾的所有目标和偏好时，这个列表不可避免地以不完整告终。说起她在旧金山开车的时候，她经常被一辆停在街上的自动驾驶汽车卡住。正如程序员告诉它的那样，它可以安全地避免与移动的物体接触---- 但这个物体就像一个塑料袋。

AI研究者Stuart Russell认为，当今以目标为导向的人工智能最终还是有局限性的，因为它在完成特定任务方面的成功，比如在危险边缘和围棋中击败我们，然而通过将机器的目标设定为最优化一个“奖励函数”(对某些目标组合的一丝不苟的描述) ，将不可避免地导致人工智能失调，因为奖励函数不可能包括并正确衡量所有目标、无法理清主要与次级目标、同时无法应对例外和警告，甚至不可能知道哪些是正确的目标。给自由漫游的“自主”机器人设定目标，随着它们变得越来越智能，风险也会越来越大，因为这些机器人会无情地追求自己的奖励功能，并试图阻止我们关闭它们。

2）对人类有益的AI应该是怎样的

Russell在最近出版的新书《Human Compatible》中给出了3条“对人类有益的AI应遵守原则”，呼应著名的的机器人三定律，分别是：

1 机器的唯一目标是最大限度地满足人类的偏好

2 机器最初不能确定这些偏好是什么

3 关于人类偏好的最终信息来源是人类行为

接下来指出这篇文章的核心观点，AI不应该去试图实现最大限度地提高观看时间或回形针产量这样的目标，它们应该只是试图改善我们的生活。只有一个问题: “如果机器的终极目标是试图最大化人类经验到的快乐的总和，AI究竟如何知道那是什么? ”

这个问题的难度在于，人类一点也不理性: 我们不可能计算出在任何特定的时刻，哪些行动会给我们的长期未来带来更好的结果;Russell认为，我们的决策是层次化的ーー我们通过较为清晰的中期目标，以追求相对模糊的长期目标，同时最关注眼前的情况，从而逼近理性的决策。他认为，AI需要做类似的事情，或者至少了解我们是如何运作的。

在强化学习，AI通过外界环境的反馈，来优化它的奖励函数，比如它在游戏中的得分; 当它尝试各种行为时，那些增加奖励功能的行为会得到强化，并且更有可能在未来发生。由Stuart Russell和 Andrew Ng提出的“逆向强化学习（ inverse reinforcement learning）”系统不会像强化学习一样试图优化某个奖励函数; 相反，它试图了解人类正在优化的奖励函数是什么。

强化学习系统会计算出实现目标的最佳行动，而逆向强化学习系统则会在给定一系列行动时破译潜在目标。如果计算机不知道人类喜欢什么——“它们可以做一些逆向强化学习来学习更多知识。

Russell进一步提出了“合作逆向强化学习” ，在这种模式中，机器人和人类可以一起工作，在各种各样的“辅助博弈”（代表真实世界、部分知识情况的抽象场景），中了解人类的真实偏好。

3）偏好的不确定性与AI的关机问题

1951年，阿兰 · 图灵在BBC的一次广播讲座上提出，也许可以“让机器处于从属地位，例如在关键时刻关闭AI的电源” 研究人员现在发现这种观点如今显得有些简单化。如何阻止智能代理禁用它自己的关闭开关，或者更广泛地说，忽略停止增加其奖励功能的命令？

在《Human Compatible》一书中，罗素写道，关机问题是“智能系统控制问题的核心”。如果我们不能关掉一台机器，因为它不让我们关，我们就真的有麻烦了。如果我们能做到，那么我们或许也能够以其它方式控制它。”

关于我们偏好的不确定性是这个问题的核心难点，例如在下面的具体案例中，机器助理罗比正在决定是否代表使用者哈丽特做决策，例如，是否为她预

订一个漂亮但昂贵的酒店房间，但罗比不确定她会喜欢什么。罗比估计哈丽特的回报可能在 -40到 + 60之间，平均 + 10(罗比认为她可能会喜欢那间豪华的房间，但不确定)。无所事事的收益是0。

但还有第三种选择: 罗比可以询问哈丽特是否希望罗比继续为她做决策，或者更愿意“关掉它”——也就是说，让罗比退出酒店预订决定。如果她让机器人继续工作，哈丽特的平均预期收益将大于 + 10。所以罗比会决定和哈丽特通过商量决定，如果她愿意，就让罗比关机。一般来说，除非罗比完全确定哈丽特本人会做什么，它会更倾向于让她来决定。“事实证明，对目标的不确定性对于确保我们能够关闭机器至关重要，”

4）合作逆向强化学习面临的挑战

合作逆向强化学习，在其提出者Russell看来，面临两大挑战。“其中是，我们的行为远非理性，因此很难重建我们真正的潜在偏好，”他说。人工智能系统需要理清长期、中期和短期目标的层次结构——我们每个人都被锁定在无数的偏好和承诺中。如果机器人要帮助我们(并避免犯严重的错误) ，它们需要知道如何绕过我们的潜意识信念和未明确表达的欲望这张模糊的网。

第二个挑战是人类偏好的改变。我们的思想会随着我们生活的进程而改变，它们也会随着我们的心情或者机器人可能难以理解的环境的改变而改变。

此外，我们的行为并不总是符合我们的理想。人们可以同时持有相互冲突的价值观。机器人应该优化哪一个？为了避免迎合我们最坏的冲动(或者更糟糕的是，放大这些冲动，从而使它们更容易满足，就像 YouTube 算法那样)

机器人可以学习Russell所说的我们的元偏好: “描述关于什么样的偏好改变是可以接受的偏好。” 即我们对自己感觉上的变化有什么感觉？

像机器人一样，我们也在试图弄清我们的偏好，它们是什么，我们希望它们是什么，以及如何处理模糊和矛盾。像我们一样，人工智能系统可能会永远停留在问问题上，走不出不确定性的带来的局部认知上，因为不确定而无法提供帮助。

然而，还有第三个主要问题没有出现在罗素的关注列表中: 坏人的偏好是什么？如何阻止机器人为了满足邪恶主人的邪恶目的而工作？人工智能系统倾向于找到绕过禁令的方法，就像富人在税法中找到漏洞一样，简单地禁止他们犯罪可能不会成功。

或者，更黑暗的是: 如果我们都是坏人怎么办？例如一直在努力修正自己，能够捕捉到无处不在的人类冲动的推荐算法，是否在通过满足人类短期的需求，而让人类忽略了气候变化这样长期的威胁了？

尽管如此，Russell还是感到乐观。尽管还需要更多的算法和博弈论研究，但他表示，他的直觉是，有害的偏好可能会被程序员成功地赋予更低的权重，而且同样的方法甚至可能“在我们培养孩子和教育人等方面”很有用换句话说，在教机器人做好人的过程中，我们可能会找到一种教会自己的方法。他补充说，“我觉得这也许是一个机会，可以引导事情朝着正确的方向发展。”

5）结合时政的评论

这篇文说的虽然是AI，但也适合人的决策。湖北潜江市因为提前预警，导致病患数目是最少的，而武汉由于拖延而没有控制疫情。这背后的对比，就在于前者不止是遵守规范，完成上级设定的目标，而是对人民真正需要什么，有过深度的思考和理解，从而能够做出一些不那么听话，但有用的举措，即要敢于打违抗命令的胜仗。今天看到一篇名为“如果武汉市长是李云龙”的帖子，看到这个标题，你应当能猜到答案，如果是这样，情况不会像现在这样。公众号西西弗评论的帖子“艰难的决策与领导的担当”其中谈到类似的观点。要想了解人民想要什么，需要借助新技术，实时了解一线的情况，之后不拘一格的，敢于承担风险的做出非常规决定，而不是官气十足把开会作为第一要务，为开会而开会。

如果一个人只能按照上级要求的去完成任务，而不能真正理解上级需要的是什么，那么这个人在职场多半只能做办事的人，而不能成为管理者。之所以需要管理，就是需要专门有人来厘清，分解出一个组织真正的目标是什么？客户的潜在偏好与渴望在那里？通过本文对AI算法的分析，可以启发读者思考，自己该如何和家人，同时协作解决生活中的”合作逆向强化学习”。

张爱玲说写作的诀窍无非是，写别人想写的或者写别人想听的。这其中的意味，就在于写作者要解决本文提到的”逆向强化学习“问题，但作为读者，要明白既然大部分文章本身是如此写出来的，我们明白，写作者的目标和我们自身的目标很大程度上是不一致的。个人需要的优化自己长期的福祉，即要通过奋斗获得个人的成功，又要通过对自我的承诺获得人际间的尊重。为了达到这个目标，就要听到和自己观点不同的，特别的对其加以重视，并争取用自己的观点复述出来；而听到和自己观点一样的，则要对其重点加以批判，看看是否存在逻辑谬误。

点击阅读原文，查看 Artificial Intelligence Will Do What We Ask. That’s a Problem 的英文原文：

https://www.quantamagazine.org/artificial-intelligence-will-do-what-we-ask-thats-a-problem-20200130/