强化学习记录

林小瓜0327

于 2022-01-09 10:00:45 发布

阅读量293

点赞数

分类专栏：强化学习文章标签：算法 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a__bc123456/article/details/122325701

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

基本术语

贪心策略：贪心策略总是做出在当前看来是最优的选择，也就是说贪心策略并不是从整体上加以考虑，它所做出的选择只是在某种意义上的局部最优解，而许多问题自身的特性决定了该题运用贪心策略可以得到最优解或较优解。
ε贪心策略：在权衡开发与探索二者之间，-ϵ−贪心是一种常用的策略。其表示在智能体做决策时，有一很小的正数ϵ ( < 1 )的概率随机选择未知的一个动作，剩下1 − ϵ 的概率选择已有动过中动作价值最大的动作。
强化学习：有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。

如何学习：对行为打分，记住高分和低分行为，强化学习具有分数导向性，强化学习是通过一次次学习，给数据加上高分或低分的标签

强化学习主流算法及其优缺点

传统算法

Q learning，sarsa，sarsa（λ），DQN

1、Q learning -->DQN：Q表格只适用于有限个状态，当状态是像素点或者状态有无穷多个时，Q表格不再适用，此时需要用到神经网络，给定状态以及动作作为输入值，经过神经网络训练出来的模型，输出一个奖励值，相当于一个回归问题。DQN会有一个记忆库用于重复学习

2、Sarsa–> sarsa（λ）:sarsa算法是单步更新，就是每走一步就更新一下Q表格，而sarsa（λ）是走λ步更新一次Q表格

Policy gradient（策略梯度算法）

策略梯度算法：更新神经网络的参数（梯度下降），更新参数时，先往一个方向更新，看看vt效果好不好，奖励是否多，要是效果好的话，增大它出现的幅度（增加出现概率），要是效果不好的话，减少出现的几率，是回合更新。

缺点：它是回合更新，就是要达到目标状态以后再更新，这样的话一个回合，它最后积累的奖励的方差是很大的，不像单步更新的话，它方差积累一步就更新了；而且不能像DQN那样重复使用之前的经验库。

Actor critic算法(演员-评论家算法)

1、Actor critic算法：Critic 通过学习环境和奖励之间的关系, 能看到现在所处状态的潜在奖励, 所以用它来指导 Actor 便能使 Actor 每一步都在更新。

优点：可以进行单步更新

缺点：Actor-Critic 涉及到了两个神经网络, 而且每次都是在连续状态中更新参数, 每次参数更新前后都存在相关性, 导致神经网络只能片面的看待问题, 甚至导致神经网络学不到东西

2、A3C（异步优势演员- 评论员算法方法）：同时开很多个进程（worker），每一个进程就是一个影分身。最后这些影分身会把所有的经验，通通集合在一起。(并行，python多线程)

3、 Deep Deterministic Policy Gradient (深度确定性策略梯度DDPG)：Actor-critic算法+DQN算法，主要借用DQN算法的经验库，可以进行重复学习

个人理解强化学习与多任务学习的联系：从一种环境中学到的技能可以运用到相关的任务中；一个智能体在一定时间内完成的任务越多，它得到的奖励也越多，有助于能提高学习效率

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习记录

强化学习入门
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。