强化学习基础
文章平均质量分 57
关于RLAI的方面的个人学习总结
cuixuange
https://github.com/cuixuage
展开
-
CS231n-课程作业总结
来自斯坦福CS231n课程 李飞飞主讲 我主要是对Notes部分的小总结 包括图像基础,神经网络Backprop,卷积层做了基础的了解 还有参数的调整,解决过拟合的问题等等 ·0_图像基础 1.k-Nearest-Neighber: 最相似的前k个元素中 找到属于同一类别最多的label 2.高维数据的PCA降维 再使用KNN 3.参数K值 向量距离的L1(差值Sum) or...原创 2018-09-12 14:47:01 · 441 阅读 · 0 评论 -
CS231n-课程总结
来自斯坦福CS231n课程 李飞飞主讲 我主要是对Notes部分的小总结 包括图像基础,神经网络Backprop,卷积层做了基础的了解 还有参数的调整,解决过拟合的问题等等0_图像基础1.k-Nearest-Neighber: 最相似的前k个元素中 找到属于同一类别最多的label2.高维数据的PCA降维 再使用KNN3.参数K值 向量距离的L1(差值Sum) or L2(差值平方和)定...原创 2018-09-19 11:04:09 · 357 阅读 · 0 评论 -
DeepReinforcementlearning:AnOverview paper总结
Deep Reinforcement Learning: An OverviewIntroduction高维的input-data in learning-control-policies in complex RL environment2,3节 deep RL内容,介绍三种常用的Deep learning结构4节 监督/无监督model in deep RLReinforcement...翻译 2018-09-25 20:09:56 · 1034 阅读 · 0 评论 -
DQN paper 总结
已读paperPlaying Atari with Deep Reinforcement LearningHuman-level control through deep reinforcement learningdeep-Q-NetWork思考1.value-function是如何使用的2.算法伪代码3.异策略 行动策略(产生新样本数据的策略,例如e-greedy) 和 评估策略...原创 2018-10-02 16:01:49 · 657 阅读 · 0 评论 -
DQN若干种变型及实现
测试环境 gym cartPole-vo代码实现https://github.com/cuixuage/Reinforcement_Learning/tree/master/Pytorch_basic1.Nature DQN延迟target NetWork更新相当于用前期一定步数的reward来计算当前真实值2.Double DQN为什么我测试效果不如DQN好?https://bl...原创 2018-10-05 21:14:30 · 4466 阅读 · 0 评论 -
RLAI-第三章-gridWorld实践
第三讲 方格世界 DP 初始情况 1.只有移动到指定位置,Reward=1.否则Reward=-1 2.States-space(4*4 终止的方格+非终止) 3.Action-space(n,e,s,w) 4.转移概率(1/4 感觉这就是相当于指定Action的策略) 5. 折扣因子γ=1 目的 给定某一策略(比如转移概率),计算每一个方格最终的状态价值 公式 ...原创 2018-09-04 20:09:52 · 2266 阅读 · 0 评论 -
RLAI-第六章-TD-Sarsa(0)实践
TD思想中的Sarsa实现 https://zhuanlan.zhihu.com/p/28133594 Sarsa是on-policy的 action初始拥有自己的策略d 我们需要优化策略π 初始情况 1.终止点Reward=1,否则Reward=-1 2.Sarsa需要维护Q(s,a)即state-value函数。在状态S下采取动作A能获取对应value 目的 Ag...原创 2018-09-04 20:11:25 · 264 阅读 · 0 评论 -
RLAI读书笔记-第十章-On-policy Control with Approximation
On-policy Control with Approximation 策略的行动状态价值 Q(S,A)的近似值Q(S,A,W)10.1 Episode Semi-gradient Control e.g. 半梯度的one-step Sarsa 伪代码P266 state-action的状态的价值的近似 动作离散 的example:—小车上山 解释: https://zhuan...原创 2018-08-31 21:27:13 · 227 阅读 · 0 评论 -
RLAI读书笔记-第十二章-Eligibility Traces
12 Eligibility Traces 10章的近似函数扩展 Wt+1 = Wt + α * {Vπ(St) - V^(S,W)} * ▽wV^(S,W) 公式P223 1.α是步长 误差{Vπ(St) - V^(S,W)}变大 则α需要变小 2.Vπ(St) 即Gt通过本章的λ-return计算 3. ▽wV^(S,W) 通过资格迹来优化看第九章 资格迹==优化后的函数微分(...原创 2018-09-03 14:24:21 · 357 阅读 · 0 评论 -
RLAI读书笔记-第十三章-Policy Gradient Methods
policy gradient Methods Model Free的策略梯度 直接策略搜索 值函数:策略评估+策略改善 ==》值函数最优,策略就是最优的的 ==》value-based method 策略搜索: 对于策略π进行参数化表示 π(a|s,θ)==》policy-based method13.1 Policy Approximation https://zhuanlan...原创 2018-09-03 14:25:25 · 279 阅读 · 0 评论 -
RLAI读书笔记-第九章-On-policy Prediction with Approximation
On-policy Predicttion with Approximation 策略π的状态价值的近似值值函数逼近==>在有限状态集推广到更大的集合并有良好近似效果 (table lookup对于大规模数据很难解决) V线性函数,W特征权重向量 V神经网络,W layers之间的链接权重 V决策树,W split points?9.1 value-function App...原创 2018-08-31 21:26:16 · 190 阅读 · 0 评论 -
RLAI读书笔记-第二章-Multi-armed Bandits
目标:balancing exploration(探索) exploitation(贪心利用)别人的读书笔记 mark: https://www.cnblogs.com/steven-yang/p/6476034.html2.2 action-value method Qt(a) = avg(时间t以前所有动作A=a的Reward)平均值 At = Max(Qt(a))当前时间...原创 2018-08-21 20:32:58 · 212 阅读 · 0 评论 -
RLAI读书笔记-第三章-MDP
目标: 有限的马尔科夫决策过程 解决大部分的强化学习框架MDP Markov Decision Processes3.1 agent-environment interface 介绍agent和env之间的交互过程: St +At 得到Rt+1 P70 实际应用中哪些被认为是env 哪些被认为是agent P74 状态转移矩阵 或者 转换矩阵以及Reward的初始设计3.2...原创 2018-08-23 16:17:50 · 233 阅读 · 0 评论 -
RLAI读书笔记-第四章-Dynamic programing
Dynamic Programming 动态规划求解MDP4.1 policy Prediction 策略 状态到行为的映射4.2 policy Improvement 最优策略 问题: 表格计算K=3的值 怎么计算出来的? P87 计算K=3是 序号为1的表格 注意: 边界外的Vk自身(意味着原地不动) -2.4 = 0.25 * (-1 + 1.0 * 0)...原创 2018-08-24 21:31:37 · 215 阅读 · 0 评论 -
RLAI读书笔记-第五章-Monte Carlo
Monte Carlo Methods 无模型的蒙特卡洛学习方法 Model free idea:未知转移概率矩阵,未知state-value函数 == 通过模拟计算得到(有限的情节任务) Monte Carlo使用模拟解决Markov Decision Process5.1 MC Prediction MC基于抽样数据计算结果 e.g.游戏类都适合:完全信息博弈游戏,像围棋、...原创 2018-08-26 16:38:12 · 373 阅读 · 0 评论 -
RLAI读书笔记-第六章-Temporal-Difference
Temporal-Difference Learning (单步 one-step)时序差分学习 无模型Model-Free RL 理解如何结合 DP+MC == 在当前episode尚未结束,就进行估计当前值函数 6.1 TD Prediction 先验知识: bootstraping 自举算法 DP=当前state value依赖于t+1时刻 V(St) = Eπ{Rt...原创 2018-08-27 20:20:51 · 243 阅读 · 0 评论 -
RLAI读书笔记-第七章-n-Step TD
n-step Bootstraping7.1 prediction example P167 大规模的随机行走T(λ)向前 向后观点 7.2 sarsa control7.3 off-policy Learning 重要性采样 7.5 off-policy without importantce Sampling总结 频率启发 frequency Heuristic 将...原创 2018-08-28 19:18:21 · 361 阅读 · 0 评论 -
RLAId读书笔记-第八章-Planning and Learning
Planning and Learning with Table 向前搜索 采样 8.1 models and Planning distribution model –返回所有可能的Action以及其概率 sample model– 根据概率返回一种行为 样本模型的数学公式: R,S’ = model(S,A) planning model==动态规划 启发式查询 都是通过模型...原创 2018-08-29 21:30:13 · 277 阅读 · 0 评论