![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 94
强化学习的学习记录
蓝色蛋黄包
要不是穷过头了,谁想让自己搞的一身才华
展开
-
【强化学习】Sarsa(lambda)
【强化学习】相关基本概念 【强化学习】 Q-Learning 【强化学习】 Q-Learning 案例分析 【强化学习】 Sarsa 【强化学习】 Sarsa(lambda)代码以及学习过程来源:莫烦Python教学(十分感谢莫烦大佬的教学视频)...原创 2021-01-25 19:02:19 · 1425 阅读 · 0 评论 -
【强化学习】Sarsa
【强化学习】相关基本概念 【强化学习】 Q-LearningSarsa概述首先可以回顾一下之前说的Q-Learning算法,Sarsa算法与Q-Learning算法很相似,Q-Learing中Q(s1,a2)现实值:Q的现实值是该行为对该状态下的奖励+衰减值乘以下一阶段状态中预估的最大行为反馈的奖励 Q-Learning 在这一步只是估计了一下下一步的行为动作反馈值,实际上并不一定选择该行为 离线学习(off-policy)Sarsa中Q(s1,a2)现实值:Q的现实值是.原创 2021-01-24 13:59:02 · 741 阅读 · 0 评论 -
【强化学习】Q-Learning 案例分析
前期知识可查看:【强化学习】相关基本概念 【强化学习】 Q-Learning代码以及学习过程来源:莫烦Python教学(十分感谢莫烦大佬的教学视频)案例介绍寻路案例:(强烈建议学习上述前期知识里的【强化学习】 Q-Learning尤其是看懂前面的小案例)红色为可移动的寻路个体 黑色为惩罚位置【奖励= -1】 黄色为目标位置【奖励= +1】 其他区域为常规状态【奖励= 0】寻路个体其实位置如图中所示的左上角,目标是移动到黄色位置,采用Q-Learning算法,能够让个体自主探..原创 2021-01-23 23:02:20 · 2680 阅读 · 1 评论 -
【强化学习】 Q-Learning
强化学习的过程是智能体从与环境的交互中不断学习以完成特定目标QLearning是强化学习算法中value-based的算法,,Q即为Q(s,a)就是在某一时刻的 s 状态下(s∈S),采取 动作a (a∈A)动作能够获得收益的期望,环境会根据agent的动作反馈相应的回报reward r,所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。...原创 2021-01-22 14:48:42 · 3906 阅读 · 1 评论 -
【强化学习】相关基本概念
1.1 强化学习从交互中学习几乎是所有学习和智能理论的基本思想。与其他机器学习方法相比,更侧重于目标导向的交互学习。建立情景-动作映射:通过不断的尝试去发现能最大奖励的动作。动作不仅影响瞬时报酬,还会影响下一个场景,并由此影响后续的奖励。两个特征:试错搜索、延迟奖励。监督学习是由专家提供的一组带标签的训练集中学习的,每个示例都是对一个情境和说明即标签的描述,该标签就是系统在该情...原创 2020-03-12 00:17:13 · 1488 阅读 · 0 评论