- 博客(16)
- 收藏
- 关注
原创 SAC(Soft Actor-Critic)算法实现控制摆锤
本文介绍了基于SAC(Soft Actor-Critic)算法的摆锤控制实现。SAC是一种结合策略梯度与时序差分算法的Actor-Critic方法,采用Off-Policy训练方式,通过最大化熵来提升探索能力。文章详细推导了软Q值计算、策略梯度和熵正则项的自适应调整公式。在代码实现上,构建了包含Actor和Critic的神经网络结构,使用经验回放技巧优化训练过程。其中Actor采用重参数化采样处理连续动作空间,Critic使用双Q网络结构提高稳定性。完整代码展示了如何将SAC理论应用于具体控制任务。
2025-06-12 21:10:20
317
原创 深度强化学习实战例子:PPO实现控制倒立摆
PPO算法是TRPO的改进版本,属于策略梯度算法范畴,采用Actor-Critic框架。其核心创新在于通过重要性采样实现Off-Policy学习,并采用截断机制控制策略更新幅度(PPO-截断)。算法通过优势函数(时序差分误差)估计状态-动作价值差异,分别优化Actor(梯度上升)和Critic(梯度下降)网络。实验表明PPO-截断性能优于PPO-惩罚。文中提供了完整的PPO实现代码,包括Actor(带Softmax输出)和Critic网络结构,以及策略更新过程中对状态、动作和奖励的Tensor转换处理
2025-06-10 17:34:39
739
原创 深度强化学习实战例子:A2C(Advantage Actor-Critic)实现控制倒立摆
使用A2C(Advantage Actor-Critic)算法实现控制倒立摆实例
2024-12-14 10:27:38
1776
原创 Matplotlib折线图类
为了以后方便使用,将Matplotlib中的折线图在这里封装成一个简单的类。并将标签重构为一个类,作为参数传递给折线图类。
2023-08-02 20:25:25
73
原创 运行RESLAM的TUM数据集问题
②运行association.py脚本,生成association.txt;再次编译,发现缺少Cere库。于是再下载安装Cere库,再次编译,成功。④输入运行指令,发现数据集路径没有更新,将数据集路径更新后,成功运行。发现是boost版本的问题,于是便重新安装boost1.6x版本。①先在官网下载TUM数据集fr1/xyz,解压;③编译RESLAM,出现问题。
2023-04-30 11:34:03
257
1
原创 Python小白学习日记(2)
②'分隔符'.join(variable)——返回列表variable中元素合并为一个字符串,字符串之间用'分隔符'隔开,分隔符可为空,或空格,或\及其他,如x=''.join(variable),这便是将variable列表中的所有元素合并为字符串,且每个字符串之间为空,存储在x中。还是一样,分享小浮自己学习到的基础Python内容,如果大家有什么补充的,欢迎在评论区发表自己的学习经验。②variable.insert(x,'C')——在列表的任何位置添加新元素,需要指定索引和值;
2023-04-26 18:43:34
141
1
原创 Python小白学习日记
这里是自律小浮第一篇博客,小浮下决心要在课余时间开始学习一下Python,同时想要用学习日记记录自己的学习过程,以及作为一种督促自己坚持学习的方式。以上便是小浮第一次学习到的内容,小浮这个Python学习日记会不定时继续更新,也希望uu们给出学习的建议。学习了Python定义字符串的格式——variable='XXX'。①variable.title()——将字符串中的每个首字母都改为大写。⑥variable.strip()——同时删除字符串两端的空白。'\t'——制表符;'\n'——换行符;
2023-03-19 00:20:22
128
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人