自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 强化学习入门笔记5——DQN 算法(基于DQN的gym登山车)

新环境!!!车杆环境它的状态值是连续的, 动作值是离散的。在车杆环境中, 有一辆小车, 智能体的任务是通过左右移动保持车上的杆竖直, 若杆的倾斜度数过大, 或者车子离初始位置左右的偏离程度过大, 或者坚持时间到达 200 帧, 则游戏结束。在游戏中每坚持一帧, 智能体能获得分数为1 的奖励, 坚持时间越长,则最后的分数越高, 坚持 200 帧即可获得最高的分数现在我们想在类似车杆的环境中得到若动作是连续(无限)的,神经网络的输入是状态s 和动作 a,然后输出一个。

2024-05-11 21:06:19 1064 1

原创 强化学习入门笔记4——Dyna-Q 算法

Q-planning 每次选取一个曾经访问过的状态 s, 采取一个曾经在该状态下执行过的动作a , 通过模型得到转移后的状态 s′ 以及奖励 r, 并根据这个模拟数据( s, a, r, s′) , 用 Q-learning 的更新方式来更新动作价值函数。Dyna-Q 使用一种叫作Q-planning 的方法来基于模型生成一些模拟数据, 然后用模拟数据和真实数据一起改进策略。特别的,当N=0是就是Q-learning,等我有空自己实现一下。Dyna-Q 算法是一个经典的基于模型的强化学习算法。

2024-04-18 16:57:51 149 1

原创 强化学习入门笔记?在线策略算法与离线策略算法

我们称采样数据的策略为行为策略( behavior policy), 称用这些数据来更新的策略为目标策略(target policy)。在线策略( on-policy) 算法表示行为策略和目标策略是同一个策略;而离线策略(off-policy) 算法表示行为策略和目标策略不是同一个策略。Sarsa 是典型的在线策略算法, 而 Q-learning 是典型的离线策略算法。判断二者类别的一个重要手段是看计算时序差分的价值目标的数据是否来自当前的策略,

2024-04-18 16:37:12 195 1

原创 强化学习入门笔记3——时序差分算法,Sarsa 算法,Q-learning

需要强调的是, Q-learning的更新并非必须使用当前贪婪策略arg max aQ( s, a)采样得到的数据, 因为给定任意 (s ,a , r,s′ )都可以直接根据更新公式来更新 Q , 为了探索, 我们通常使用一个 -贪婪策略来与环境交互。Sarsa 必须使用当前 -贪婪策略采样得到的数据, 因为它的更新中用到的Q(s′,a′)中的 a′ 是当前策略在s′ 下的动作。具体来说, 时序差分算法用当前获得的奖励加上下一个状态的价值估计来作为在当前状态会获得的回报, 即。现在开始无模型的学习。

2024-04-18 16:35:55 258 1

原创 强化学习入门笔记2——策略迭代和价值迭代

一个很自然的想法就是,对每个状态往下走一步获得的奖励加上到达这个状态以后奖励的期望就是新一步的奖励,便利所有a就是从Q—>V的过程,得到下一步的价值。这个自然的想法就来自于贝尔曼。主要就是牢记,你的Π就像是你的地图上每个各自你望哪个方向走的概率,是概率,这个概率就是你最终想得到的东西,也就是机器人做决策的依据,概率!很简单,就是每次更新价值完之后更改你的策略为,朝着Q最高的方向走,看起来有点短视,但是这就是贪心算法。说白了就是感觉在策略评估的时候直接贪心,然后最后改策略,就改最后一次,计算量降低很多。

2024-04-18 15:01:12 294 1

原创 强化学习入门学习笔记1——概念梳理

策略,一直是我初学时搞错的一个东西,他指的是你在每一个S(状态)下采取各种action的概率,而不是从开头到结尾这样的一条路。Q就是下一步期望加未来步期望,最直观的告诉你接下来往哪走最好。这里第二个式子可见Π的返回值是概率。

2024-04-18 14:29:57 90 1

原创 配置yolov4-tiny在ubuntu20.04上手把手教程

在电脑上配置yolo4-tiny

2024-03-20 23:37:49 528

原创 Ubuntu22.04/20.04双系统nvidia驱动和CUDA和pytorch安装配置yolov8深度学习环境

首先作为小白你肯定觉得痕奇怪,也不知道这些东西干啥的奇奇怪怪的安装一大堆。其实简单理解就是我们需要一个linux系统环境来进行学习和操作,所以我们用到了图形化系统Ubuntu,他和你电脑里的windows其实一个性质啦。然后你不得不使用GPU加速你的模型训练,所以就需要安装NVIDIA驱动来启用你的显卡之后呢就需要安装一些cuda和cudnn之类的来配合,以及conda营造虚拟环境然后下载必备的pytorch。

2024-01-15 01:23:21 1760 3

原创 0-1背包问题的解决学习笔记(多方法)

考虑如下定义的背包问题K(U, C):设U={u(1), u(2),…, u(n)}是一个准备放入容量为C的背包中的n个物品的集合,第i个物品u(i)具有体积s(i)和价值v(i),要求从这n个物品中挑选出一部分装入背包,在不超过背包容量的前提下使背包中物品的价值最大。这里C, s(i)和v(i)都为正整数,且所有的s(i)都不大于C

2023-11-22 16:43:38 88 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除