自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 SAC(Soft Actor-Critic)算法实现控制摆锤

本文介绍了基于SAC(Soft Actor-Critic)算法的摆锤控制实现。SAC是一种结合策略梯度与时序差分算法的Actor-Critic方法,采用Off-Policy训练方式,通过最大化熵来提升探索能力。文章详细推导了软Q值计算、策略梯度和熵正则项的自适应调整公式。在代码实现上,构建了包含Actor和Critic的神经网络结构,使用经验回放技巧优化训练过程。其中Actor采用重参数化采样处理连续动作空间,Critic使用双Q网络结构提高稳定性。完整代码展示了如何将SAC理论应用于具体控制任务。

2025-06-12 21:10:20 317

原创 深度强化学习实战例子:PPO实现控制倒立摆

PPO算法是TRPO的改进版本,属于策略梯度算法范畴,采用Actor-Critic框架。其核心创新在于通过重要性采样实现Off-Policy学习,并采用截断机制控制策略更新幅度(PPO-截断)。算法通过优势函数(时序差分误差)估计状态-动作价值差异,分别优化Actor(梯度上升)和Critic(梯度下降)网络。实验表明PPO-截断性能优于PPO-惩罚。文中提供了完整的PPO实现代码,包括Actor(带Softmax输出)和Critic网络结构,以及策略更新过程中对状态、动作和奖励的Tensor转换处理

2025-06-10 17:34:39 739

原创 深度强化学习算法总结(二)

本文参考《深度强化学习》一书,以下内容是总结各算法的主要思想和训练流程。

2025-03-02 20:28:38 847

原创 深度强化学习实战例子:A2C(Advantage Actor-Critic)实现控制倒立摆

使用A2C(Advantage Actor-Critic)算法实现控制倒立摆实例

2024-12-14 10:27:38 1776

原创 深度强化学习实战例子:DQN实现控制倒立摆

深度强化学习实战:DQN实现控制倒立摆

2024-11-18 15:20:25 1687

原创 深度强化学习算法总结(一)

本文参考《深度强化学习》一书,文中内容是总结各算法的主要思想和训练流程。

2024-11-14 16:48:55 2328 1

原创 视觉SLAM十四讲学习笔记(二)

SLAM十四讲学习笔记(二)——关于变换

2023-08-09 23:32:19 130 1

原创 视觉SLAM十四讲学习笔记(一)

SLAM,Simultaneous Localization and Mapping,同时定位与地图构建。

2023-08-08 00:06:06 185

原创 Matplotlib柱形图类

柱形图绘制重构为一个类,方便使用。将Matplotlib中的。同时将标签集成在一个。

2023-08-03 22:50:32 81

原创 Matplotlib散点图类

【代码】Matplotlib散点图类。

2023-08-03 20:17:41 89

原创 Matplotlib折线图类

为了以后方便使用,将Matplotlib中的折线图在这里封装成一个简单的类。并将标签重构为一个类,作为参数传递给折线图类。

2023-08-02 20:25:25 73

原创 Numpy自学笔记(万字)

Numpy通常与Scipy和Matplotlib一起使用,广泛替代MATLAB,有助于学习数据科学或机器学习。

2023-07-20 20:33:41 210 1

原创 Python自学笔记(万字)

Python自学笔记万字,包含入门基础编程内容

2023-07-20 20:32:39 262 1

原创 运行RESLAM的TUM数据集问题

②运行association.py脚本,生成association.txt;再次编译,发现缺少Cere库。于是再下载安装Cere库,再次编译,成功。④输入运行指令,发现数据集路径没有更新,将数据集路径更新后,成功运行。发现是boost版本的问题,于是便重新安装boost1.6x版本。①先在官网下载TUM数据集fr1/xyz,解压;③编译RESLAM,出现问题。

2023-04-30 11:34:03 257 1

原创 Python小白学习日记(2)

②'分隔符'.join(variable)——返回列表variable中元素合并为一个字符串,字符串之间用'分隔符'隔开,分隔符可为空,或空格,或\及其他,如x=''.join(variable),这便是将variable列表中的所有元素合并为字符串,且每个字符串之间为空,存储在x中。还是一样,分享小浮自己学习到的基础Python内容,如果大家有什么补充的,欢迎在评论区发表自己的学习经验。②variable.insert(x,'C')——在列表的任何位置添加新元素,需要指定索引和值;

2023-04-26 18:43:34 141 1

原创 Python小白学习日记

这里是自律小浮第一篇博客,小浮下决心要在课余时间开始学习一下Python,同时想要用学习日记记录自己的学习过程,以及作为一种督促自己坚持学习的方式。以上便是小浮第一次学习到的内容,小浮这个Python学习日记会不定时继续更新,也希望uu们给出学习的建议。学习了Python定义字符串的格式——variable='XXX'。①variable.title()——将字符串中的每个首字母都改为大写。⑥variable.strip()——同时删除字符串两端的空白。'\t'——制表符;'\n'——换行符;

2023-03-19 00:20:22 128

Markdown使用笔记

以现学现用的方式,记录Markdown学习过程中的要点。在笔记中也记录了一些使用Markdown的例子,比如流程图、表格等。

2023-08-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除