cencen_binbin-CSDN博客

原创强化学习笔记6

DDPG算法基本概念：离散动作与连续动作是相对的概念，一个是可数的，一个是不可数的。在 CartPole 环境中，可以有向左推小车、向右推小车两个动作。在 Frozen Lake 环境中，小乌龟可以有上下左右四个动作。在 Atari 的 Pong 游戏中，游戏有 6 个按键的动作可以输出。但在实际情况中，经常会遇到连续动作空间的情况，也就是输出的动作是不可数的。比如说推小车力的大小、选择下一时刻方向盘的转动角度或者四轴飞行器的四个螺旋桨给的电压的大小等等。对于这些连续的动作控制空间，Q-lear

2020-11-08 19:47:40 92

原创强化学习笔记6

DDPG算法基本概念：离散动作与连续动作是相对的概念，一个是可数的，一个是不可数的。在 CartPole 环境中，可以有向左推小车、向右推小车两个动作。在 Frozen Lake 环境中，小乌龟可以有上下左右四个动作。在 Atari 的 Pong 游戏中，游戏有 6 个按键的动作可以输出。但在实际情况中，经常会遇到连续动作空间的情况，也就是输出的动作是不可数的。比如说推小车力的大小、选择下一时刻方向盘的转动角度或者四轴飞行器的四个螺旋桨给的电压的大小等等。对于这些连续的动作控制空间，Q-lear

2020-11-08 19:23:14 157

原创强化学习笔记5

一、稀疏奖励基本概念：实际上用 reinforcement learning learn agent 的时候，多数的时候 agent 都是没有办法得到 reward 的。那在没有办法得到 reward 的情况下，训练 agent 是非常困难的。如果环境中的 reward 非常 sparse，reinforcement learning 的问题就会变得非常的困难，但是人类可以在非常 sparse 的 reward 上面去学习。reward shaping：在我们的agent与environment进

2020-11-05 23:40:14 123

原创强化学习笔记4

Q学习1、基本概念DQN(Deep Q-Network)：基于深度学习的Q-learning算法，其结合了 Value Function Approximation（价值函数近似）与神经网络技术，并采用了目标网络（Target Network）和经历回放（Experience Replay）的方法进行网络的训练。State-value Function：本质是一种critic。其输入为actor某一时刻的state，对应的输出为一个标量，即当actor在对应的state时，预期的到过程结束时间段中

2020-11-03 21:58:54 248

原创强化学习笔记3

策略梯度1、基本概念policy（策略）：每一个actor中会有对应的策略，这个策略决定了actor的行为。具体来说，Policy 就是给一个外界的输入，然后它会输出 actor 现在应该要执行的行为。一般地，我们将policy写成 π。Return（回报）：一个回合（Episode）或者试验（Trial）所得到的所有的reward的总和，也被人们称为Total reward。一般地，我们用 R 来表示它。Trajectory：一个试验中我们将environment 输出的 s 跟 acto

2020-10-29 18:29:09 257

原创强化学习笔记2

马尔可夫决策过程（MDP）1、基本概念：马尔可夫性质(Markov Property): 如果某一个过程未来的转移跟过去是无关，只由现在的状态决定，那么其满足马尔可夫性质。马尔可夫链(Markov Chain): 概率论和数理统计中具有马尔可夫性质（Markov property）且存在于离散的指数集（index set）和状态空间（state space）内的随机过程（stochastic process）。状态转移矩阵(State Transition Matrix): 状态转移矩阵类似于一个

2020-10-23 18:26:41 132

cencen_binbin的博客

原创强化学习笔记6

原创强化学习笔记6

原创强化学习笔记5

原创强化学习笔记4

原创强化学习笔记3

原创强化学习笔记2

原创强化学习学习笔记1

原创 pytorch深度学习笔记3

原创 pytorch学习2

原创 pytorch深度学习

空空如也

空空如也