深度学习的发展方向: 深度强化学习!

深度学习虽热门但存在数据依赖问题,而强化学习模仿人类学习模式。深度强化学习结合两者优势,以AlphaGo为例展示了强化学习的强大潜力。通过智能体与环境交互,强化学习包含观察、动作和奖励等核心概念,并分为基于价值和基于策略两大方向。深度学习的加入解决了传统强化学习的局限,如DQN算法,推动了AI领域的进步。
摘要由CSDN通过智能技术生成

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习,不错过

 Datawhale干货 

作者:莫凡&马晶敏,上海交通大学,Datawhale成员

深度学习不够智能,强化学习又太抽象。深度强化学习是两套理论体系乘风破浪以后的成团产物,其骨架来自强化学习,而灵魂由深度学习赋予。深度强化学习是一个值得持续研究和关注的新方向。

一、深度学习的反思

现在深度学习大热,一点也不输给现在的室外气温,但大热背后也有隐忧,深度学习虽然表面光鲜,但细看就会发现:仍然充满了槽点。

其中一个可谓是直击灵魂。现在深度学习用得最多的就是有监督学习。有监督学习不妨理解成“有参考答案的学习”,它有一个特点,就是数据必须经过标识才能用于训练。但现在海量的数据是未标识数据,且标识成本很高。很多研究人员,甚至包括有不少的大牛都在反思,琢磨深度学习是不是“错了”。如果说人工智能发展的正道在于模拟人类智能,那深度学习的这套学习模式可能走了歪路。

举一个例子,就是人类的小婴儿学走路。小婴儿学走路肯定不是靠先看一大堆的《如何解锁行走姿势》或者《人类直立动作大全》之类的资料,用行话来说,就是不必依赖外部输入大量的训练数据。那小婴儿是怎么学的呢?靠不断尝试,也就是我们常说的跌倒了爬起来再走。简单来说,这一派研究人员认为:深度学习和人类的学习模式是截然不同的,别看现在大红大紫,早晚是要碰到天花板的。那应该怎么办呢?很多人都指了同一个地方,就是深度强化学习。

二、强化学习原理

深度强化学习是两套理论体系乘

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值