科学家以寓言故事做为AI的道德学习

最新推荐文章于 2024-04-26 16:08:14 发布

weixin_34249367

最新推荐文章于 2024-04-26 16:08:14 发布

阅读量87

点赞数

文章标签：人工智能 python

原文链接：https://my.oschina.net/u/4024424/blog/3004561

版权

2019独角兽企业重金招聘Python工程师标准>>>

随着人工智能近年急速的发展，科学家不得不正视机器人可带来的危机。早前，网络大厂甚至与牛津大学连手，开始研究人工智能的死穴，为人类在危急关头准备后路。不过一班研究人员却从另一方向思考，探索是否可向人工智能教授道德标准，令他们明白是非对错。但他们同时必须面对一个重大的难题，究竟应如何断定这道德准则，由谁撰写这本「人生使用手册」呢?

人工道德标准

佐治亚理工学院互动计算学研究员马克·瑞得尔（Mark Riedl）和布兰特·哈里逊（Brent Harrison）认为他们设计的「唐吉诃德」系统或能解决这个问题。他们声称，唐吉诃德能籍着教导机器人读故事、从而学习事件的先后次序、并理解如何在人类社会表现正常，学习「价值准则」。「我们挑选的故事，搜集于不同文化，以寓言、小说和其他文学之中适当及不适当的行为为例，教会儿童被社会接受的行为。」瑞得尔解释：「我们相信当机器人理解这些故事后，将会变得更理智及更稳定，同时强化正确选择，让他们在不伤害人类的前提下完成任务。」当人工智能做出社会许可的行为时，唐吉诃德将会给予奖励，以此巩固它们的人性价值观。这项技术，是建基于瑞得尔之前的研究──「天方夜谭系统」上，天方夜谭系统研究人工智能如何利用群众外包（crowdsourcing）来搜集互联网上的故事情节，并排出正确先后次序。

学习过程

在论文中，瑞得尔和哈里逊讲述了如何使用唐吉诃德向人工智能教导人性价值。首先，他们使用天方夜谭来传达何为正常、「正确」的故事情节，然后传递给唐吉诃德，转化为「奖励讯号」，在试验探索中，强化正确行为及惩罚错误行为。比方说，一个机械人的任务是尽快获取紧急药品。这个机械人可以选择取药不付钱离开、友善的跟药剂师交流、或是排队等待。若没有唐吉诃德提供的价值准则和赏罚分明的制度，机械人就会直接拿「霸王药」。若耐心等候，唐吉诃德则会给予奖励，以保证机械人遵守人性价值。研究人员表示，唐吉诃德技术最适合那些用途有限，但需与人类交流完成任务的机器人，声称这是迈向建立人工智能道德思维的第一步。「我们认为人工智能一定要培养某种社会价值观，这样才能尽力避免不被接受的行为。」瑞得尔说：「让机械人阅读和理解我们的故事，也许便是最适宜的『人生使用手册』。」

转载于:https://my.oschina.net/u/4024424/blog/3004561