RL
文章平均质量分 90
强化学习记录
我不是小哥哥
这个作者很懒,什么都没留下…
展开
-
强化学习总结
文章目录一、简介二、MDP三、动态规划四、不基于模型的预测五、不基于模型的控制六、价值函数的近似表示七、基于策略的强化学习八、model-based 强化学习九、探索与利用参考链接一、简介RL与其他ML的区别(特点):无监督,只有奖励信号反馈延迟时间顺序:动态系统,受不同环境影响很大采用不同的措施应对不同的环境:独立同分布数据不符合RL假设:量化奖励信号,通过最大化累积奖励进行训练。对于多目标,不同目标设置不同权重值的奖励,以达到累积奖励最大化的目标input: 观察,奖励outp原创 2021-11-14 10:30:45 · 359 阅读 · 0 评论 -
强化学习8、9章
八、model-based 强化学习基于模型的强化学习:适用于连续变量的状态和行为空间[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ojotQs4h-1636855872661)(…/…/Library/Application Support/typora-user-images/image-20211108213519414.png)]假设状态转换和奖励之间是条件独立的,建立环境模型<Pη,Rη><P_\eta,R_\eta><Pη,原创 2021-11-14 10:12:52 · 1151 阅读 · 0 评论 -
强化学习第7章——基于策略的强化学习
七、基于策略的强化学习近似价值函数:是在某一特定的策略下采取最大行为价值的动作,在使用贪心寻找最优价值时同时得到最优策略只能解决状态空间连续问题,不能解决行为空间连续的问题(行为空间是离散的)而且采用价值函数确定动作在每个状态采取的行为是确定的,当由于个体在观测环境时的局限性,可能会导致类似的环境应该采用不同的动作(这种情况下的最优策略是随机策略,每次采取的行为可能不一样),而近似价值函数确定性的动作确定就会有缺陷。(如石头剪刀布游戏)所以在基于策略的RL中采用,策略函数:πθ(s,a)=P[a∣原创 2021-11-14 10:10:37 · 4138 阅读 · 0 评论 -
强化学习第6章——价值函数的近似表示
六、价值函数的近似表示对于状态数量较多/连续状态很难用离散形式表示,所以需要找到一个函数(线性函数,神经网络等)来近似表示价值函数:使得,v(s)≈v(s,w)v(s) \approx v(s, w)v(s)≈v(s,w) or q(s,a)≈q(s,a,w)q(s, a) \approx q(s, a, w)q(s,a)≈q(s,a,w)ω\omegaω表示引入的参数,通常是一个矩阵或至少是一个向量。价值函数的近似表示主要有两种方法:递增方法和批处理。“递增方法”,针对每一步,近似函数得到一些原创 2021-11-07 19:40:20 · 306 阅读 · 0 评论 -
强化学习第5章——不基于模型的控制
五、不基于模型的控制学习方式:On-policy learning: 个体已有一个策略指导agent的行为,然后根据得到的一系列奖励或者(状态/行为)价值优化这个策略,更新价值函数,最终得到一个相比原来更优的策略。由于要优化的策略就是当前遵循的策略,所以叫“现时策略学习”。Off-policy learning:虽然个体已经有一个策略指导行为,但是个体是通过观察其他的策略进行学习(从别人的经验中学习),然后优化自己的策略。这类学习方式是根据已有的策略学习,所以叫“离线策略学习”On-policy l原创 2021-11-02 19:38:38 · 353 阅读 · 0 评论 -
强化学习第4章——不基于模型的预测(MC,TD)
四、不基于模型的预测在这种情况隙中,agent的组成只包含策略和奖励蒙特卡洛算法:蒙特卡罗是一类随机方法的统称。这类方法的特点是,可以在随机采样上计算得到近似结果,随着采样的增多,得到的结果是正确结果的概率逐渐加大,但在(放弃随机采样,而采用类似全采样这样的确定性方法)获得真正的结果之前,无法知道目前得到的结果是不是真正的结果。MC:Model-free:不需要知道状态转移概率和奖励MC通过大量完整的片段学习推导出平均收获值代替状态价值PS:所有的片段必须有终止状态,因为使用的是每个状态原创 2021-10-31 20:14:39 · 338 阅读 · 0 评论 -
强化学习第2章——MRP and MDP
一、简介RL与其他ML的区别(特点):无监督,只有奖励信号反馈延迟时间顺序:动态系统,受不同环境影响很大采用不同的措施应对不同的环境:独立同分布数据不符合RL假设:量化奖励信号,通过最大化累积奖励进行训练。对于多目标,不同目标设置不同权重值的奖励,以达到累积奖励最大化的目标input: 观察,奖励output:动作无法控制外部环境,只能产生动作个体和环境 Agent & Environment环境可以:接收个体的动作AtA_tAt ,更新环境信息,同时使得个体原创 2021-10-27 20:34:55 · 805 阅读 · 0 评论 -
强化学习第3章——动态规划
三、动态规划满足条件:最优子结构,重复子问题bellman递归方程可以用动态规划求解Vlaue function记录子问题的解Planning(规划):规划: 环境是已知或近似已知的,个体并不与环境发生实际的交互,而是利用其构建的模型进行计算,在此基础上改善其行为策略。MDP认为已知所有的环境信息,所以可以用动态规划。预测:求基于当前策略π的价值函数input: MDP and π\piπ MRPOutput: value function控制:求最优价值函数和最优策略原创 2021-10-27 20:30:04 · 234 阅读 · 0 评论