深度学习的发展方向：深度强化学习！

最新推荐文章于 2025-10-06 23:05:36 发布

原创

最新推荐文章于 2025-10-06 23:05:36 发布 · 1.9k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #游戏 #大数据 #编程语言 #强化学习

深度学习虽热门但存在数据依赖问题，而强化学习模仿人类学习模式。深度强化学习结合两者优势，以AlphaGo为例展示了强化学习的强大潜力。通过智能体与环境交互，强化学习包含观察、动作和奖励等核心概念，并分为基于价值和基于策略两大方向。深度学习的加入解决了传统强化学习的局限，如DQN算法，推动了AI领域的进步。

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习，不错过

Datawhale干货

作者：莫凡&马晶敏，上海交通大学，Datawhale成员

深度学习不够智能，强化学习又太抽象。深度强化学习是两套理论体系乘风破浪以后的成团产物，其骨架来自强化学习，而灵魂由深度学习赋予。深度强化学习是一个值得持续研究和关注的新方向。

一、深度学习的反思

现在深度学习大热，一点也不输给现在的室外气温，但大热背后也有隐忧，深度学习虽然表面光鲜，但细看就会发现：仍然充满了槽点。

其中一个可谓是直击灵魂。现在深度学习用得最多的就是有监督学习。有监督学习不妨理解成“有参考答案的学习”，它有一个特点，就是数据必须经过标识才能用于训练。但现在海量的数据是未标识数据，且标识成本很高。很多研究人员，甚至包括有不少的大牛都在反思，琢磨深度学习是不是“错了”。如果说人工智能发展的正道在于模拟人类智能，那深度学习的这套学习模式可能走了歪路。

举一个例子，就是人类的小婴儿学走路。小婴儿学走路肯定不是靠先看一大堆的《如何解锁行走姿势》或者《人类直立动作大全》之类的资料，用行话来说，就是不必依赖外部输入大量的训练数据。那小婴儿是怎么学的呢？靠不断尝试，也就

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。