强化学习入门与实践系列—0.强化学习序论

学习炒菜的小芹菜

于 2019-05-30 11:17:30 发布

阅读量114

点赞数

分类专栏：深度强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41913844/article/details/90693838

版权

深度强化学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1.强化学习解决什么问题
强化学习（Reinforcement learning，以下简称RL），主要解决序贯决策问题，即需要连续作出决策的问题。
2.RL如何解决问题
首先来看监督学习。监督学习是通过从大量带有标签的数据输入中学习到特征，因而当下一个数据输入时，可以通过识别其特征映射到对应的标签，达到智能感知的目的。
RL则不同，它不关心输入长什么样，只关心当前输入（状态）下采取什么动作才能完成最终目标（奖励累积值最大）。
RL与监督学习的异同：两者都需要大量的数据进行训练，但监督学习需要的是多样化、差异化带有标签的数据，而RL需要的是带有回报的交互数据。
3.RL发展史
1998年以前，研究重点为表格形RL算法
1998年，sutton出版《Reinforcement Learning》第一版，系统总结了1998年以来RL取得的各种进展，这一时期RL基本框架已经形成。该书的中文版将由电子工业出版社出版。
1998年-2013年，发展各种直接策略搜索的方法。
2013至今：深度强化学习（DRL）

学习炒菜的小芹菜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习入门与实践系列—0.强化学习序论

1.强化学习解决什么问题强化学习（Reinforcement learning，以下简称RL），主要解决序贯决策问题，即需要连续作出决策的问题。2.RL如何解决问题首先来看监督学习。监督学习是通过从大量带有标签的数据输入中学习到特征，因而当下一个数据输入时，可以通过识别其特征映射到对应的标签，达到智能感知的目的。RL则不同，它不关心输入长什么样，只关心当前输入（状态）下采取什么动作才能完成...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。