PyTorch深度强化学习路径规划, SAC-Auto路径规划, Soft Actor-Critic算法, SAC-pytorch，激光雷达Lidar避障，激光雷达仿真模拟，Adaptive-SAC

宇哥预测优化代码学习

于 2024-09-12 07:35:16 发布

阅读量361

点赞数 3

文章标签： pytorch 算法人工智能

本文链接：https://blog.csdn.net/w56782888/article/details/142156327

版权

💥💥💞💞欢迎来到本博客❤️❤️💥💥

🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。

⛳️座右铭：行百里者，半于九十。

📋📋📋本文目录如下：🎁🎁🎁

目录

⛳️赠与读者

💥1 概述

1. 深度强化学习路径规划

2. SAC-Auto路径规划

3. Soft Actor-Critic算法

4. SAC-pytorch

5. 激光雷达Lidar避障

6. 激光雷达仿真模拟

7. Adaptive-SAC

📚2 运行结果

🎉3 参考文献

🌈4 Python代码、文献下载

⛳️赠与读者

👨‍💻做科研，涉及到一个深在的思想系统，需要科研者逻辑缜密，踏实认真，但是不能只是努力，很多时候借力比努力更重要，然后还要有仰望星空的创新点和启发点。当哲学课上老师问你什么是科学，什么是电的时候，不要觉得这些问题搞笑。哲学是科学之母，哲学就是追究终极问题，寻找那些不言自明只有小孩子会问的但是你却回答不出来的问题。建议读者按目录次序逐一浏览，免得骤然跌入幽暗的迷宫找不到来时的路，它不足为你揭示全部问题的答案，但若能让人胸中升起一朵朵疑云，也未尝不会酿成晚霞斑斓的别一番景致，万一它居然给你带来了一场精神世界的苦雨，那就借机洗刷一下原来存放在那儿的“躺平”上的尘埃吧。

或许，雨过云收，神驰的天地更清朗.......🔎🔎🔎

💥1 概述

摘要
无模型深度强化学习（RL）算法已成功应用于一系列具有挑战性的序列决策和控制任务。然而，这些方法通常面临两个主要挑战：高样本复杂性和对超参数的脆弱性。这两个挑战限制了这些方法在真实世界领域中的适用性。在本文中，我们描述了软演员-评论家（Soft Actor-Critic，SAC），这是一种基于最大熵强化学习框架的离策略演员-评论家算法。在这个框架中，演员的目标是同时最大化预期回报和熵。也就是说，在尽可能随机的情况下成功完成任务。我们扩展了SAC，加入了多个修改，以加速训练并改善对超参数的稳定性，包括一种约束形式，用于自动调整温度超参数。我们对SAC在一系列基准任务以及诸如四足机器人运动和灵巧手的机器人操作等真实世界具有挑战性的任务进行了系统评估。通过这些改进，SAC达到了最先进的性能，在样本效率和渐近性能方面超越了之前的在线和离线方法。此外，我们还展示了，与其他离策略算法相比，我们的方法非常稳定，在不同随机种子下实现了相似的性能。这些结果表明，SAC是学习真实世界机器人任务的一个有前途的候选者。

针对您提出的问题，我将分别进行解答：

1. 深度强化学习路径规划

深度强化学习（Deep Reinforcement Learning, DRL）路径规划是机器人和自动驾驶等领域中的一个重要研究方向。它结合了深度神经网络（DNN）和强化学习（RL）的优势，通过让智能体在环境中试错并学习最优策略，从而找到从起始点到目标点的最优路径。这种方法能够处理复杂的环境和动态变化，具有广泛的应用前景，如智能交通、无人机导航等。

在深度强化学习路径规划中，智能体通过深度神经网络来近似值函数或策略函数，并根据环境的反馈（即奖励或惩罚）来调整自己的行为策略。常用的算法包括Q-learning、Deep Q-Network（DQN）等，以及更复杂的算法如Actor-Critic方法，其中Soft Actor-Critic（SAC）算法就是其中的一种。

2. SAC-Auto路径规划

SAC-Auto是基于Soft Actor-Critic（SAC）算法的路径规划方法。SAC算法是一种结合了熵正则化的Actor-Critic方法，旨在提高策略的探索性和鲁棒性。SAC-Auto将这种算法应用于路径规划领域，使得智能体能够在复杂环境中高效地规划出稳健的路径，并避开障碍物。

SAC-Auto算法的优势在于其高度自适应性，无论是连续还是离散的动作空间都能灵活应对。此外，其强大的IO接口支持训练进度备份、加载以及策略模型的ONNX导出，便于部署到实际应用中。在自动驾驶、机器人导航等领域，SAC-Auto算法能够训练出高效且稳健的导航策略，使无人车辆或无人机能够自主规划路线并实现精准定位和移动。

3. Soft Actor-Critic算法

Soft Actor-Critic（SAC）算法是一种基于策略的强化学习算法，它通过引入熵正则化项来平衡策略的探索性和利用性。SAC算法使用两个网络来估计策略和值函数，并通过优化目标函数来学习最优策略。目标函数由策略目标和值函数目标组成，策略目标通过最大化期望回报来优化策略，值函数目标则通过最小化值函数的平方误差来优化值函数。

SAC算法的一个重要特点是其引入的熵正则化项，该项鼓励智能体在探索过程中保持一定的随机性，从而避免过早地陷入局部最优解。这使得SAC算法在复杂环境中具有更好的探索能力和鲁棒性。

4. SAC-pytorch

SAC-pytorch是指在PyTorch框架下实现的Soft Actor-Critic算法。PyTorch是一个流行的深度学习框架，提供了丰富的工具和库来支持机器学习和深度学习任务。在PyTorch中实现SAC算法需要定义使用深度神经网络参数化的策略和值函数网络，并编写算法的核心逻辑来训练和推断这些网络。

通过SAC-pytorch，研究人员和工程师可以更方便地在PyTorch环境中开发和部署SAC算法，利用其强大的自动求导功能和灵活的模型定义能力来优化算法性能。

5. 激光雷达Lidar避障

激光雷达（Lidar）是一种通过发射激光脉冲并测量其返回时间来检测障碍物和构建环境模型的传感器。在机器人和自动驾驶系统中，激光雷达被广泛应用于避障和路径规划领域。激光雷达的优点是精度高、测距远，能够生成高精度的三维点云数据，从而帮助机器人或车辆识别障碍物的位置和大小。

在避障过程中，激光雷达收集到的点云数据需要经过预处理和特征提取等步骤来简化数据并保留有用信息。然后，这些信息被用于构建环境模型，并结合避障算法来规划出避开障碍物的路径。常用的避障算法包括VFH（Vector Field Histogram）等，它们通过分析方向上的障碍物分布来选择安全的前进方向。

6. 激光雷达仿真模拟

激光雷达仿真模拟是一种在虚拟环境中模拟激光雷达工作过程的技术。通过仿真模拟，研究人员可以在不依赖实际硬件的情况下测试和验证激光雷达的性能和算法。仿真模拟可以模拟不同的环境条件和障碍物布局，从而提供丰富的测试场景和数据。

在激光雷达仿真模拟中，常用的工具包括Ansys Lumerical等。这些工具提供了高精度的仿真模型和算法，能够模拟激光雷达的发射、接收和信号处理等过程。通过仿真模拟，研究人员可以评估激光雷达的测距精度、分辨率和抗干扰能力等性能指标，并优化算法以提高其性能。

7. Adaptive-SAC

Adaptive-SAC可能是一个指代具有自适应特性的Soft Actor-Critic算法的术语。然而，需要注意的是，“Adaptive-SAC”并不是一个广泛认可的标准术语或算法名称。在实际应用中，SAC算法本身已经具有一定的自适应能力，因为它能够通过学习来适应不同的环境和任务。如果“Adaptive-SAC”被用于特指某种具有特殊自适应机制的SAC算法变体，那么其具体实现和特性可能需要根据具体的文献或项目描述来确定。

总的来说，深度强化学习路径规划、SAC-Auto路径规划、Soft Actor-Critic算法、SAC-pytorch、激光雷达Lidar避障以及激光雷达仿真模拟都是机器人和自动驾驶等领域中的重要技术和研究方向。它们各自具有独特的特点和优势，并在不同的应用场景中发挥着重要作用。

动态：

静态：

📚2 运行结果

部分代码：

# 1.环境实例化
from path_plan_env import DynamicPathPlanning
env = DynamicPathPlanning(800) # 动作空间本身就是 -1,1

# 2.策略加载
import onnxruntime as ort
policy = ort.InferenceSession("./path_plan_env/policy_dynamic.onnx")

# 3.仿真LOOP
from copy import deepcopy

MAX_EPISODE = 5
for episode in range(MAX_EPISODE):
## 获取初始观测
obs = env.reset()
## 进行一回合仿真
for steps in range(env.max_episode_steps):
# 可视化
env.render()
# 决策
seq_points = obs['seq_points'].reshape(1, *obs['seq_points'].shape) # (1, seq_len, *points_shape, )
seq_vector = obs['seq_vector'].reshape(1, *obs['seq_vector'].shape) # (1, seq_len, vector_dim, )
act = policy.run(['action'], {'seq_points': seq_points, 'seq_vector': seq_vector})[0] # return [action, ...]
act = act.flatten() # (1, dim, ) -> (dim, )
# 仿真
next_obs, _, _, info = env.step(act)
# 回合结束
if info["terminal"]:
print('回合: ', episode,'| 状态: ', info,'| 步数: ', steps)
break
else:
obs = deepcopy(next_obs)
#end for