强化学习
ztchao1996
加油
展开
-
强化学习之MDP
MPMP的过程 由state probability reward lambda决定案例如下所示:值函数V(s)MDP, S A P R lamdba决策变量定义值函数和状态值函数的定义:Bellman方程 计算关于Q下的VBellman方程 计算QBellman方程 计算V寻找最优Q 和V找到...原创 2019-07-09 21:24:56 · 456 阅读 · 0 评论 -
强化学习之动态规划
Dynamic Programming什么是DP,MDP为什么是DP?DP能解决什么问题?迭代策略评估:例子:如何提高策略?原创 2019-07-09 22:49:12 · 154 阅读 · 0 评论 -
cs294-RL introduction
强化学习的种类model-based RL值函数policy gradientactor-critic: value function plus policy gradients为什么要有那么多的RL算法?协调因素:采样高效、稳定 不同假设:随机或确定、连续or离散、episode or infinite horizon 难度不同:策略展示简单还是模型展示...原创 2019-07-23 20:35:32 · 223 阅读 · 0 评论 -
cs294-value function methods
在actor-critic中,忽略policy gradient策略迭代过程:策略迭代用动态规划简化动态规划:采用NN估计值函数拟合Q迭代为什么算法是off-policy在线Q-learning算法总结...原创 2019-07-23 21:28:50 · 129 阅读 · 0 评论 -
cs294-deepRL with Qfunction
回顾Qlearning问题在哪? 样本强相关、不是梯度下降相关性采样用replay buffer解决:多次采样采样放在一起但是,目标值没有梯度Q-learning 用目标网络经典DQN算法:更加通用的观点...原创 2019-07-23 22:10:40 · 117 阅读 · 0 评论