人工智能一大技术:强化学习(RL)

人工智能技术进步的速度越来越快,每种细分技术所创造的价值正日益得到展现。

2013年,DeepMind发明了DQN算法,成功将深度学习和强化学习结合起来,开启了深度强化学习的新纪元。此后数年,强化学习的成果日新月异,很多非常困难的问题都被深度强化学习算法解决。

2016年,谷歌阿尔法围棋以4:1战胜围棋世界冠军、职业九段棋手李世石,不仅让深度学习为人们所知,而且掀起了人工智能的“大众热”,大家由此更加关注强化学习这一技术要点。

使用强化学习的一个很好的例子是让机器人学习如何走路。机器人首先向前迈出一大步然后跌倒。这一大步和摔倒是强化学习系统关注的响应点。由于反馈是负面的,所以继续调整,系统会根据多个负反馈的比对最终确定机器人应该把步子迈的小一点,不停地小,直到机器人走路不会摔倒为止。

通过强化学习,Boston Dynamics公司的机器人已经掌握了托举、后空翻、跳上窗台的要点。而迪斯尼幻想工程已经把这一点带到了一个新的层面,那就是让人形机器人来执行玩命的特技。

有业内人士指出,强化学习和其他的人工智能技术有一个很大的差异,那就是它的学习范式和其它技术不太一样。它不需要我们去收集数据,也不需要我们去做任何标记,而是我们把称之为智能体(Agent),放在一个环境里,就像动物或者我们自己生存的一个环境里,它会和环境自己

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值