whzooz-CSDN博客

复习回顾策略梯度：策略梯度是状态价值函数关于θ的梯度，θ是策略网络的参数，策略梯度可以写成期望的形式，期望是关于A求的，A是随机变量，其概率密度是策略网络π，期望里面是关于A的函数，记作g(A)，相当于一个随机梯度，由于求期望很困难，实践中总是用随机梯度代替期望，也就是蒙特卡洛近似。g(a)称为随即策略梯度，其中a是策略网络随机抽样得到的，实践中都是用g(a)去更新策略网络，做梯度上升更新参数θ。随机策略做连续控制本次我们将构建一个策略网络做连续控制，然后用随即策略梯度来更新策略网络

2022-04-25 20:42:33 1207

原创 DPG（确定策略梯度）

基本网络结构：还是基于Actor-critic网络的一种结构，包含策略网络和价值网络。这里的策略网络为，但输出不再是概率分布，而是一个确定的实数或向量，输出的动作a是确定的，没有随机性，在机械臂的例子中，输出的是二维向量，因为机械臂有两个动作维度。这里的价值网络有两个输入，分别是状态s和动作a，输出的是一个实数，即对动作的评价。我们要做的就是训练这两个网络，让策略函数选取动作越来越好，让价值函数打分越来越准确。价值网络的训练：1.观测到一个四元组。2.根据观测到的t时刻的

2022-04-25 16:59:40 3049

原创 REINFORCE和A2C的异同

两者的神经网络结构一模一样，都是分为两个网络，即策略神经网络和价值神经网络。但是两者的区别在于价值神经网络的作用不同，A2C中的可以评价当前状态的好坏，而REINFORCE中的只是作为一个Baseline而已，唯一作用就是降低随机梯度造成的方差。A2C算法的改进：用multi-step TD target来改进A2C算法，因为之前计算TD target只用到一个奖励，所以是one step TD target。用multi-step TD target就是指计算TD target时里面包含多..

2022-04-25 15:45:41 2073

原创 Reinforce with Baseline

概念回顾：公式推导：之前介绍Baseline的博客得出随机策略梯度，想要用其来更新策略网络，但是里面还有未知项，还得做近似。我们不知道和，所以需要去近似。而是回报的期望，在这里再做一次近似，那观测到的来近似，这也是一种蒙特卡洛近似，称为Reinforce。具体做法：例如玩一整局游戏，观测到一条轨迹，我们把从t时刻开始的所有奖励做加权求和，得到回报。就是的无偏估计。对于，我们用神经网络来近似，叫做价值神经网络，即。最终得到的近似结果为：我们总共做了三次近似（两次蒙特卡洛近似

2022-04-25 15:14:07 1569

原创 A2C方法（策略梯度中的Baseline)

就是把Baseline用在Actor-Critic网络中。这里的Actor-Critic网络也有两个网络，分别是策略网络和价值网络，策略网络记作，其中θ为神经网络的参数，该神经网络近似的是策略函数，来控制agent的动作。价值网络记作，其中w是价值神经网络的参数，该神经网络近似的是状态价值函数，用来评价状态的好坏。这里的Actor-Critic网络与之前的不太一样，之前的critic用的是动作价值函数Q，这里用的是状态价值V,动作价值函数Q依赖于状态s和动作a，而状态价值V只依赖于状态s，所以V比Q

2022-04-25 15:13:39 1331

原创 Policy Gradient with Baseline

策略梯度的推导：策略梯度中的Baseline：策略梯度中常用Baseline方法来降低方差，可以使得收敛更快。Baseline可以是一个函数b，该函数是什么都可以，但就是不能依赖于动作A。下面是Baseline的一个重要等式推导，灰色部分是用链式法则展开，添加Baseline后的策略梯度：引入b既然等于0为什么要引入呢？原因是神经网络中的策略梯度并不是按照这个公式计算，而是这个公式的蒙特卡洛近似，如果选取的b合适，那么就会使得蒙特卡洛的方差变小，使得收敛的更快。.

2022-04-06 20:00:27 1302

原创 Dueling Network

这是对神经网络的一种改进。不仅仅局限于DQN，也可以应用到其他网络，这里只介绍在DQN上的使用。Advantage Function(优势函数):回顾：是动作价值函数，是关于和求期望，把t+1时刻以后的动作和状态都消掉了。不仅和，有关，也与策略函数π有关。是状态价值函数，是关于动作A求期望，消去动作A，只保留状态，也与策略函数π有关。最优动作价值函数，是对关于策略π求最大值，就消掉了策略π，得到的最优动作价值函数只和当前的状态s和动作a有关。评价在状态s的情况下做出动作a的好..

2022-03-28 21:41:34 1487

原创高估问题以及解决方法

两个原因：1.计算TD target时，用到了最大化，造成计算的结果比真实值要大。2.用高估的结果再去更新自己，在网络中一次次循环过程，该最大化会越来越大，导致高估。DQN的高估是非均匀的，而这种非均匀的高估是有害的，因为不能选出最优的动作。DQN的高估是非均匀的，原因如下：DQN一般从队列中选取一个transition四元组去更新w，而TD target已经是对真实价值的高估，TD算法鼓励DQN的预测接近，但是已经是高估的，那么DQN这么做就会把DQN对的估计值给推高，s和a的..

2022-03-28 20:10:19 1192

原创经验回放（Experience Replay)

复习DQN:动作价值函数，依赖于当前动作a和状态s。基于当前的动作s给所有的动作打分，反映动作的好坏。DQN就是用神经网络来近似，神经网络的参数记作w。输入是动作s，DQN的神经网络中卷积层全连接层中的参数为w，输出是对动作的打分。复习TD算法:观测当前的状态，并执行动作。环境会给出新的状态和回报。计算出此时的TD target，TD target一部分基于真实观测到的奖励，部分基于DQN网络在t+1时刻做出的预测。把DQN在t时刻做出的预测记作，然后算出TD error，.

2022-03-28 15:38:44 7128

原创 Multi-Step TD target

这是对TD算法的一种改进回顾Sarsa和Q-learning:这两种算法的TD target都包含一个rt，但是如果有多个奖励，则称为Multi-Step TD target，会让效果变得更好。每次都是观测一组transition，即，这样算出的TD target叫做one-step TD target，其实可以考虑多个奖励计算TD target，然后对动作价值进行一次更新。如同时使用两个transition的奖励，这样算出的就叫做Multi-Step TD target:推导：

2022-03-28 14:25:55 561

原创 Q-Learning算法

之前介绍过Sarsa算法，其是一种TD算法，目的是为了学习动作价值函数。Q-learning也是一种TD算法，目的是为了学习最优动作价值函数Q*，其实训练DQN的算法就是Q-learning。Sarsa算法和Q-learning算法的区别：两者的TD target略有不同。Q-learning的TD target：求最大化：求完最大化后，可以消掉，得到下面的等式：直接求期望比较困难，所以对期望进行蒙特卡洛近似，得到TD target:Q-learning算

2022-03-26 20:23:28 3366

原创 Sarsa算法

得到等式如下：用这个公式推导TD target:依赖于St，At，St+1。而状态价值函数是对和求期望，所以将的转换公式代入得到两项期望相加。上面的式子可以得到下面这个式子：由于直接求期望比较困难，所以这里用了蒙特卡洛近似。将近似成，将近似成，则该等式左边是该时刻的价值，右边是期望，我们把期望近似成TDtarget （yt)。yt部分基于真实观测到的奖励，部分基于做出的预测。TD learing的想法是将动作价值去接近yt。这是因为完全是估计，而yt一部分是基于真实的..

2022-03-26 19:48:00 3083

原创价值学习&DQN value-based Reinforcement Learning

DQN网络：用一个神经网络Q来近似Q*。Q的参数是w，输入是状态s，输出是很多数值，是对动作的打分。DQN应用：输入是图片，用一个卷积层Conv把图片变成一个特征向量，再用一个全连接层把特征映射到输出的向量，输出的向量就是对动作的打分。向量每一个元素对应一个动作，如图所示，有三种动作（向上，向左，向右）。根据分析，此处该向上。分析：首先观测到状态St，用DQN把St作为输入，给所有的动作打分，找到分数最高的动作作at，Agent执行at后，状态会发生改变，用状态转移函数p

2022-03-23 15:32:16 236

原创 Actor-Critic方法

复习回顾：是动作价值函数的期望，如果动作是离散的，则是图中连加的形式，如果动作是连续的，则会是积分形式。是策略函数，可以计算动作的概率值，从而控制agent做运动，是动作价值函数，可以评价动作的好坏程度。可惜策略函数和都不知道，于是需要用两个神经网络分别近似这两个函数，再用Actor-Critic方法同时学习这两个神经网络。我们可以用策略网络来近似策略函数，θ为策略网络的参数。我们用策略网络控制agent做运动，决策是由策略网络做的，所以策略网络也叫actor。相当于运动员。用另一个神..

2022-03-23 14:53:49 2411

原创策略学习（Policy-Based Reinforcement Learning)

策略函数是一个概率密度函数。输入是状态s，输出的概率分布，反映的是接下来采取动作的概率。agent从中做一个随机抽样，如向上是0.7，则可能从中抽取向上的动作。策略网络，用一个策略网络去拟合近似策略函数。例子：输入是当前状态（可能是一张图片），经过若干卷积层之后生成特征向量，然后经过全连接层把特征向量映射到三维向量（因为游戏里有三个动作），然后用softmax激活函数（该激活函数能将输出全为正数且和为1）将其输出为概率分布，输出的即为每个动作的概率。动作价值函数：是Ut的条件期望，...

2022-03-22 20:32:21 2285

原创强化学习基本概念

一、概述强化学习是智能体与环境不断交互，从而不断强化自己的决策能力的过程。首先环境(Env)会给智能体(Agent)一个观测值(Observation)(有时也称状态State)，智能体接收到环境给的观测值之后会做出一个动作(Action)，环境接收到智能体给的动作之后会做出一系列的反应，例如对这个动作给予一个奖励(Reward)，以及给出一个新的观测值。智能体根据环境给予的奖励值去更新自己的策略(Policy)。可以说，强化学习的目的就是为了得到最优的策略。二、基本概念1.策略Poli

2022-03-15 15:17:56 1402

原创 PCA（数据降维算法）

PCA的目的是找到一个坐标系，使得数据只保留在一个维度时，信息损失最小（即避免投影上去，都集中在一个点）。数据变换的概念：下图这里左乘一个对角矩阵，相当于左乘了一个基底，实现对坐标轴的拉伸：下图这里再左乘一个R矩阵，实现方向旋转：数据处理流程图如下：白数据的定义：拉伸决定了方差最大的方向是横或纵。旋转决定了方差最大的方向的角度。立即推，我们要求的就是这个R矩阵。协方差定义：协方差矩阵：如图所示：随着拉伸和旋转，协方...

2022-01-08 15:40:25 1490

原创 LSTM模型

LSTM模型是为了解决RNN神经网络中的梯度爆炸问题。（1）模型思路：RNN是想把所有信息都记住，不管是有用的信息还是没用的信息。LSTM：设计一个记忆细胞（具备选择性记忆的功能），可以选择记忆重要信息，过滤掉噪声信息，减轻记忆负担。（2）LSTM前向传播：LSTM模型：RNN模型：两者相比，LSTM内部更加复杂，且RNN只有一条链路串联起各个神经元，而LSTM是由两条链路串联起来的。LSTM内部结构分析：和代表细胞记忆，前者为t-1时刻的记忆，后者为t时刻...

2022-01-01 15:24:18 18952 1

原创 RNN与CNN的特点及区别

从应用方面上来看，CNN用到做图像识别比较多，而RNN在做到语言处理多一点，如果拿来比喻的话，CNN如同眼睛一样，正是目前机器用来识别对象的图像处理器。相应地，RNN则是用于解析语言模式的数学引擎，就像耳朵和嘴巴。对于CNN神经网络，有一个基础的假设——人类的视觉总是会关注视线内特征最明显的点RNN的假设——事物的发展是按照时间序列展开的，即前一刻发生的事物会对未来的事情的发展产生影响。CNN1.结构层次卷积神经网络主要分数据输入层(Input Layer)、卷积计算层(CONV La

2021-12-27 15:47:23 14515 2

原创激励函数相关内容

激励函数相关内容

2021-12-26 20:01:31 819

qq_41903673的博客

原创 java-注解

原创 C++函数

原创 c++数组

原创 c++标准库类型vector

原创 C++标准库类型string

原创 GRU门控循环单元

原创随机策略做连续控制