自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Fast Planner—— Kinodynamic A*公式推导

Fast Planner 中 Kinodynamic A*公式推导

2024-07-08 11:53:09 714 1

原创 深度确定性策略梯度(DDPG)

从DDPG这个名字看,它是由D(Deep)+D(Deterministic )+ PG(Policy Gradient)组成。PG(Policy Gradient)我们在里已经讨论过。那什么是确定性策略梯度(Deterministic Policy Gradient,以下简称DPG)呢?确定性策略是和随机策略相对而言的,对于某一些动作集合来说,它可能是连续值,或者非常高维的离散值,这样动作的空间维度极大。

2022-10-18 10:17:51 855 1

原创 强化学习A3C算法

上一篇Actor-Critic算法的代码,其实很难收敛,无论怎么调参,最后的CartPole都很难稳定在200分,这是Actor-Critic算法的问题。但是我们还是有办法去有优化这个难以收敛的问题的。回忆下之前的DQN算法,为了方便收敛使用了经验回放的技巧。那么我们的Actor-Critic是不是也可以使用经验回放的技巧呢?当然可以!不过A3C更进一步,还克服了一些经验回放的问题。经验回放有什么问题呢?回放池经验数据相关性太强,用于训练的时候效果很可能不佳。

2022-09-20 22:13:09 754

原创 Actor-Critic算法

强化学习

2022-09-20 20:00:43 12895

原创 强化学习 策略梯度(Policy Gradient)

策略梯度

2022-09-20 16:18:15 1119

原创 强化学习纲要笔记2

强化学习

2022-08-31 21:22:43 378

原创 强化学习纲要笔记1

马尔科夫决策

2022-08-13 15:35:57 418 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除