强化学习reinforcement learning
跬步达千里
深度学习 图像处理 tensorflow caffe python C++
展开
-
Deep Q Learning 笔记
alphago 基础之DQN Q learning: 1 主要用在解是离散时 2 主要是利用值函数,即,直接由值函数来推策略 3 其核心在于bellman方程和代价函数 bellman的核心在于使用reward的时候要考虑到将来的情况,而不是只考虑现在的情况,否则的话,只考虑到当前的reward就和人只顾当下,不考虑未来,是走不长远的,在游戏中就意味着,你很快将死掉,不论是Qlearnin原创 2017-11-29 10:46:00 · 1081 阅读 · 1 评论 -
Policy Gradient笔记
policy_gradient,主要包括两个网络: 价值网络和策略网络: 价值网络,主要用于评估基于当前状态下能够得到的最大reward(或者叫胜率),该最大reward包括该状态下的reward,以及后面几步的reward,只是后面几步的reward的权重系数更小 策略网络:主要用于评估在当前状态下采取哪个策略使得agent获取的reward最大,要利用训练数据的实际reward和价值网络产原创 2017-11-28 16:08:26 · 1384 阅读 · 0 评论 -
价值网络和策略网络的简单融合
最近alphazero都已经出来了,貌似比alphago zero更厉害,在alphazero和alphago zero中使用了比较新的策略,将价值网络和策略网络进行了融合,即同一个网络,产生两个不同的输出,让两个网络的权重进行共享,同时进行更新,为了加深理解,在最简单的游戏cartpole上进行了尝试.实际上将价值网络和策略网络进行融合,实现起来应该是比较简单的,直接给出代码:https://g原创 2017-12-07 15:27:05 · 6750 阅读 · 1 评论