TensorFlow-11-策略网络

今日资料:
《Tensorflow 实战》-策略网络
代码:
https://github.com/awjuliani/DeepRL-Agents/blob/master/Policy-Network.ipynb

强化学习是机器学习的一个重要分支,可以解决连续决策的问题。

一个强化学习问题,主要包含三个概念,环境状态,行动,奖励, 强化学习的目标就是获得最多的累计奖励。

它有很多应用,比如控制机器人,无人驾驶,商品定价,库存管理,玩游戏,例如AlphaGo。

例如在围棋这个游戏中,环境状态指的是已经出现的某个局势,行动指在某个位置落子,奖励是指当前这步棋获得的目数,最终的目标就是在结束时总目数超过对手,它是以最终结果为目标,而不是只看当下某个行动带来的利益。

强化学习不像无监督学习那样完全没有学习目标,也不像监督学习那样有非常明确的目标,他的目标一般是变化的不明确的。在围棋游戏中19×19的棋盘带来了3^361种状态,这是无法通过暴力搜索来战胜人类的,所以就需要给计算机抽象思维的能力。AlphaGo 主要使用了快速走子,策略网络,估值网络,和蒙特卡洛搜索树等技术。

深度强化学习模型本质上也是神经网络,主要分为策略网络和估值网络

强化学习中最重要的两类方法,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值