UCL汪军专访:从生命体决策出发,探索智能决策的安全与风险

导读:我们的日常生活中无时无刻不涉及到决策,如果说感知智能是从观察到发现规律的过程,那么决策智能就是从规律再返回到感知世界,进而改变数据的过程。这样的逻辑可以描述整个生命体的规律,同时也为我们设计通用人工智能提供了方向和思路。

生命体是如何进行决策的?机器在较复杂的决策空间中怎样学习?如今火爆的NLP大模型如何能够帮助我们进行智能决策?针对这些问题,在2022北京智源大会的强化学习与决策智能论坛上,来自伦敦大学学院计算机系的汪军教授作了题为《智能决策大模型》的报告。同时,智源社区也对汪军教授进行了专访,针对该领域内的前沿趋势进行了深入探讨。

66f13fcb0303c0914ea5ec81b8958d8d.png

汪军,伦敦大学学院计算机系教授,英国艾伦·图灵研究所(The Alan Turing Institute)Fellow。主要研究智能信息系统,包括机器学习、强化学习、多智能体、数据挖掘、计算广告学、推荐系统等。汪军教授目前已发表 200 多篇学术论文,出版两本学术专著,并多次获得最佳论文奖。

整理:沈磊贤

编辑:李梦佳

决策的机理是什么?

笛卡尔在17世纪作为哲学家和数学家就开始思考人是如何做决策的,当时的科学还是比较落后,笛卡尔给出的解释比较机械,即二元论的观点。笛卡尔认为在大脑中有某个特定的器官,叫松果体,为心灵和肉体之间的交互提供了场所。心灵的东西虽然是无法解释的,但是笛卡尔认为心灵的东西可以控制人体各种各样的行为动作,通过他的导引能够进行一些日常的决策和行动。这是他对人的决策的解释。

53a0deafe066dd6a66ef5c565992191d.png

松果体

此外,相关研究中另一个理论来解释人甚至生命的思路是“熵增熵减”的原理。整个宇宙是一个熵增的过程,即从有序变无序的状态。假设某个封闭的空间被抽成了真空,在一边划一个裂缝,将气体放进去,慢慢扩散到整个空间,这种气体的扩散就是从有序变成无序的状态。

生命体则相反,吸收能量,是从无序走向有序的状态;于是从人生下来到死亡是一个熵减的过程。人的生活日常其实是在找规律,即使生活环境在变,人内在环境的很多东西是不会变的,比如说身体的体温,身体体液的成分等。所以作为一个生命体,无论外界的情况如何变化,其内部总是希望保持一个恒定的状态。

人工智能技术是人产生的,它必然是帮助我们解决这个不变性问题。从这个角度不难理解作为一个生命体是如何做决策。下图中,假设左侧的整个环境是不可知的,右侧作为一个生命体的简单模型(抑或人工智能体的模型),“他”可以观测到外界的状态,但是无法100%观察到自然界的固有的规律。

基于已有的观测,个体在内部会对真实的世界产生一个估计,代表了个体对外界的理解。当它有这个理解以后,就可以采取行动对外界做出改变,比如人可以改变世界,细胞可以释放出某些物质来与病毒做斗争。外界受影响之后又会出现新的状态,整个过程迭代反复。所以感知智能是从观察到发现规律的过程,决策智能就是从规律再返回到感知世界,进而改变数据的过程。这样的逻辑可以描述整个生命体的规律,同时也为我们设计通用人工智能提供方向和思路。

ea15a2726a9c4a1110c1445b646c8e24.png

一个环境和个体交互的简单模型。左边是环境,右边是个体

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值