强化学习
文章平均质量分 55
Raoodududu
这个作者很懒,什么都没留下…
展开
-
强化学习学习总结(一)——Qlearning
一、Qlearning算法思想构架二、Qlearing算法程序实现 1.导入import numpy as npimport pandas as pdimport time2.给定初始值N_STATES = 6 # 总长度the length of the 1 dimensional worldACTIONS = ['left...原创 2018-09-28 22:02:33 · 1464 阅读 · 0 评论 -
强化学习学习总结(三)——Sarsa
1.qlearning和sarsa 区别(1)qlearning——off-policy:离线(2)sarsa——on-policy:在线 2.程序学习模式不同class SarsaTable(RL): def __init__(self, actions, learning_rate=0.01, reward_decay=0.9, e_greedy...原创 2018-10-08 22:14:25 · 410 阅读 · 0 评论 -
强化学习学习总结(四)——DQN
一、def 如果我们的state与action很多,就如打砖块游戏,每个时间不同的砖块排列跟剩余都是不同的state,就会导致维度灾难。使用神经网络来 估算 这个 state 的值, 这样就不需要一张表了.更新方式二、算法更新1、初始化replay memory D 容量为N 2、用一个深度神经网络作为Q值网络,初始化权重参数 3、设定游戏片段总数M 4...原创 2018-10-09 10:00:16 · 2147 阅读 · 0 评论 -
强化学习学习总结(二)——QLearning算法更新和思维决策
QLearning QLearning并没有直接将这个Q值(q_target是估计值)直接赋予新的Q,而是采用渐进的方式类似梯度下降,朝target迈近一小步,取决于α,这就能够减少估计误差造成的影响。类似随机梯度下降,最后可以收敛到最优的Q值。 一、QLearning算法思维 二、QLearning算法更新思维 1.导入模块from maze...原创 2018-09-30 15:36:46 · 9155 阅读 · 3 评论