强化学习入门与实践系列—0.强化学习序论

1.强化学习解决什么问题
强化学习(Reinforcement learning,以下简称RL),主要解决序贯决策问题,即需要连续作出决策的问题。
2.RL如何解决问题
首先来看监督学习。监督学习是通过从大量带有标签的数据输入中学习到特征,因而当下一个数据输入时,可以通过识别其特征映射到对应的标签,达到智能感知的目的。
RL则不同,它不关心输入长什么样,只关心当前输入(状态)下采取什么动作才能完成最终目标(奖励累积值最大)。
RL与监督学习的异同:两者都需要大量的数据进行训练,但监督学习需要的是多样化、差异化带有标签的数据,而RL需要的是带有回报的交互数据。
3.RL发展史
1998年以前,研究重点为表格形RL算法
1998年,sutton出版《Reinforcement Learning》第一版,系统总结了1998年以来RL取得的各种进展,这一时期RL基本框架已经形成。该书的中文版将由电子工业出版社出版。
1998年-2013年,发展各种直接策略搜索的方法。
2013至今:深度强化学习(DRL)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值