Skywalkist-CSDN博客

原创 pip3无法运行，报错UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xff in position 458: invalid start b

二次开发小米狗出现的问题，饱受折磨，立即发csdn共勉。该问题由发行文件的编码格式导致，将以下文件重命名。之后pip3可以正常使用。

2024-11-09 01:21:25 237

原创强化学习入门笔记5——DQN 算法（基于DQN的gym登山车）

新环境！！！车杆环境它的状态值是连续的，动作值是离散的。在车杆环境中，有一辆小车，智能体的任务是通过左右移动保持车上的杆竖直，若杆的倾斜度数过大，或者车子离初始位置左右的偏离程度过大，或者坚持时间到达 200 帧，则游戏结束。在游戏中每坚持一帧，智能体能获得分数为1 的奖励，坚持时间越长，则最后的分数越高，坚持 200 帧即可获得最高的分数现在我们想在类似车杆的环境中得到若动作是连续（无限）的，神经网络的输入是状态s 和动作 a，然后输出一个。

2024-05-11 21:06:19 1421 1

原创强化学习入门笔记4——Dyna-Q 算法

Q-planning 每次选取一个曾经访问过的状态 s，采取一个曾经在该状态下执行过的动作a ，通过模型得到转移后的状态 s′ 以及奖励 r，并根据这个模拟数据( s, a, r, s′) ，用 Q-learning 的更新方式来更新动作价值函数。Dyna-Q 使用一种叫作Q-planning 的方法来基于模型生成一些模拟数据，然后用模拟数据和真实数据一起改进策略。特别的，当N=0是就是Q-learning，等我有空自己实现一下。Dyna-Q 算法是一个经典的基于模型的强化学习算法。

2024-04-18 16:57:51 274 1

原创强化学习入门笔记？在线策略算法与离线策略算法

我们称采样数据的策略为行为策略（ behavior policy），称用这些数据来更新的策略为目标策略（target policy）。在线策略（ on-policy）算法表示行为策略和目标策略是同一个策略；而离线策略（off-policy）算法表示行为策略和目标策略不是同一个策略。Sarsa 是典型的在线策略算法，而 Q-learning 是典型的离线策略算法。判断二者类别的一个重要手段是看计算时序差分的价值目标的数据是否来自当前的策略，

2024-04-18 16:37:12 333 1

原创强化学习入门笔记3——时序差分算法，Sarsa 算法，Q-learning

需要强调的是， Q-learning的更新并非必须使用当前贪婪策略arg max aQ( s, a)采样得到的数据，因为给定任意 (s ,a , r,s′ )都可以直接根据更新公式来更新 Q ，为了探索，我们通常使用一个 -贪婪策略来与环境交互。Sarsa 必须使用当前 -贪婪策略采样得到的数据，因为它的更新中用到的Q(s′,a′)中的 a′ 是当前策略在s′ 下的动作。具体来说，时序差分算法用当前获得的奖励加上下一个状态的价值估计来作为在当前状态会获得的回报，即。现在开始无模型的学习。

2024-04-18 16:35:55 366 3

原创强化学习入门笔记2——策略迭代和价值迭代

一个很自然的想法就是，对每个状态往下走一步获得的奖励加上到达这个状态以后奖励的期望就是新一步的奖励，便利所有a就是从Q—>V的过程，得到下一步的价值。这个自然的想法就来自于贝尔曼。主要就是牢记，你的Π就像是你的地图上每个各自你望哪个方向走的概率，是概率，这个概率就是你最终想得到的东西，也就是机器人做决策的依据，概率！很简单，就是每次更新价值完之后更改你的策略为，朝着Q最高的方向走，看起来有点短视，但是这就是贪心算法。说白了就是感觉在策略评估的时候直接贪心，然后最后改策略，就改最后一次，计算量降低很多。

2024-04-18 15:01:12 391 1