Reinforcement Learning 增强学习

20180830
参考:https://www.nowcoder.com/courses/190

Reinforcement Learning(处理回归问题)

核心部分:包括了类似人、动物、机器人或者深度网络这样的自动代理

目标:通过最大化数值回报来学习如何在不确定的环境中驾驶。

模型把当前状态和行为作为输入,产生最大化的预期回报作为输出。
考虑从当前状态到最终状态之间的所有期望的回报。

Demo

Deep Atari:实际上是处理回归问题,而非分类问题,且无池化层(no pooling)。

Deep Q Net(DQN):使用当前状态和行为来预测最大回报值。

区别Supervised Learning

Supervised Learning 是基于历史样本来理解环境。但这并总是做事的最好方法。
Reinforcement Learning 完全关注于最好的回报。强调当前行为改变状态

Supervised Learning :尝试在堵车的环境下基于一个礼拜之前观察过的清晰路况驾驶,类似于通过后视镜驾驶。
Reinforcement Learning :为你的行为得到分数(在你的车道行驶,在速度限制下开车,在适当时候发出信号等),但也会因为追尾和超速等危险行为丢失分数。目标是在当前的交通环境下获得最高分数。

代理

增强学习的代理可以在探索和开发之间权衡,选择可以达到最大预期回报的路径

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值