自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 java-注解

注解

2022-10-30 17:40:51 148 1

原创 C++函数

c++函数

2022-10-05 16:46:31 688

原创 c++数组

数组

2022-09-27 21:45:13 452

原创 c++标准库类型vector

vector

2022-09-24 20:46:52 512

原创 C++标准库类型string

c++字符串

2022-09-24 19:32:34 1064

原创 GRU门控循环单元

GRU

2022-09-21 19:41:53 196

原创 随机策略做连续控制

复习回顾策略梯度:策略梯度是状态价值函数关于θ的梯度,θ是策略网络的参数,策略梯度可以写成期望的形式,期望是关于A求的,A是随机变量,其概率密度是策略网络π,期望里面是关于A的函数,记作g(A),相当于一个随机梯度,由于求期望很困难,实践中总是用随机梯度代替期望,也就是蒙特卡洛近似。g(a)称为随即策略梯度,其中a是策略网络随机抽样得到的,实践中都是用g(a)去更新策略网络,做梯度上升更新参数θ。随机策略做连续控制本次我们将构建一个策略网络做连续控制,然后用随即策略梯度来更新策略网络

2022-04-25 20:42:33 1110

原创 DPG(确定策略梯度)

基本网络结构:还是基于Actor-critic网络的一种结构,包含策略网络和价值网络。这里的策略网络为,但输出不再是概率分布,而是一个确定的实数或向量,输出的动作a是确定的,没有随机性,在机械臂的例子中,输出的是二维向量,因为机械臂有两个动作维度。这里的价值网络有两个输入,分别是状态s和动作a,输出的是一个实数,即对动作的评价。我们要做的就是训练这两个网络,让策略函数选取动作越来越好,让价值函数打分越来越准确。价值网络的训练:1.观测到一个四元组。2.根据观测到的t时刻的

2022-04-25 16:59:40 2711

原创 REINFORCE和A2C的异同

两者的神经网络结构一模一样,都是分为两个网络,即策略神经网络和价值神经网络。但是两者的区别在于价值神经网络的作用不同,A2C中的可以评价当前状态的好坏,而REINFORCE中的只是作为一个Baseline而已,唯一作用就是降低随机梯度造成的方差。A2C算法的改进:用multi-step TD target来改进A2C算法,因为之前计算TD target只用到一个奖励,所以是one step TD target。用multi-step TD target就是指计算TD target时里面包含多..

2022-04-25 15:45:41 1928

原创 Reinforce with Baseline

概念回顾:公式推导:之前介绍Baseline的博客得出随机策略梯度,想要用其来更新策略网络,但是里面还有未知项,还得做近似。我们不知道和,所以需要去近似。而是回报的期望,在这里再做一次近似,那观测到的来近似,这也是一种蒙特卡洛近似,称为Reinforce。具体做法:例如玩一整局游戏,观测到一条轨迹,我们把从t时刻开始的所有奖励做加权求和,得到回报。就是的无偏估计。对于,我们用神经网络来近似,叫做价值神经网络,即。最终得到的近似结果为:我们总共做了三次近似(两次蒙特卡洛近似

2022-04-25 15:14:07 1473

原创 A2C方法(策略梯度中的Baseline)

就是把Baseline用在Actor-Critic网络中。这里的Actor-Critic网络也有两个网络,分别是策略网络和价值网络,策略网络记作,其中θ为神经网络的参数,该神经网络近似的是策略函数,来控制agent的动作。价值网络记作,其中w是价值神经网络的参数,该神经网络近似的是状态价值函数,用来评价状态的好坏。这里的Actor-Critic网络与之前的不太一样,之前的critic用的是动作价值函数Q,这里用的是状态价值V,动作价值函数Q依赖于状态s和动作a,而状态价值V只依赖于状态s,所以V比Q

2022-04-25 15:13:39 1228

原创 Policy Gradient with Baseline

策略梯度的推导:策略梯度中的Baseline:策略梯度中常用Baseline方法来降低方差,可以使得收敛更快。Baseline可以是一个函数b,该函数是什么都可以,但就是不能依赖于动作A。下面是Baseline的一个重要等式推导,灰色部分是用链式法则展开,添加Baseline后的策略梯度:引入b既然等于0为什么要引入呢?原因是神经网络中的策略梯度并不是按照这个公式计算,而是这个公式的蒙特卡洛近似,如果选取的b合适,那么就会使得蒙特卡洛的方差变小,使得收敛的更快。.

2022-04-06 20:00:27 1199

原创 Dueling Network

这是对神经网络的一种改进。不仅仅局限于DQN,也可以应用到其他网络,这里只介绍在DQN上的使用。Advantage Function(优势函数):回顾:是动作价值函数,是关于和求期望,把t+1时刻以后的动作和状态都消掉了。不仅和,有关,也与策略函数π有关。是状态价值函数,是关于动作A求期望,消去动作A,只保留状态,也与策略函数π有关。最优动作价值函数,是对关于策略π求最大值,就消掉了策略π,得到的最优动作价值函数只和当前的状态s和动作a有关。评价在状态s的情况下做出动作a的好..

2022-03-28 21:41:34 1413

原创 高估问题以及解决方法

两个原因:1.计算TD target时,用到了最大化,造成计算的结果比真实值要大。2.用高估的结果再去更新自己,在网络中一次次循环过程,该最大化会越来越大,导致高估。DQN的高估是非均匀的,而这种非均匀的高估是有害的,因为不能选出最优的动作。DQN的高估是非均匀的,原因如下:DQN一般从队列中选取一个transition四元组去更新w,而TD target已经是对真实价值的高估,TD算法鼓励DQN的预测接近,但是已经是高估的,那么DQN这么做就会把DQN对的估计值给推高,s和a的..

2022-03-28 20:10:19 998

原创 经验回放(Experience Replay)

复习DQN:动作价值函数,依赖于当前动作a和状态s。基于当前的动作s给所有的动作打分,反映动作的好坏。DQN就是用神经网络来近似,神经网络的参数记作w。输入是动作s,DQN的神经网络中卷积层全连接层中的参数为w,输出是对动作的打分。复习TD算法:观测当前的状态,并执行动作。环境会给出新的状态和回报。计算出此时的TD target,TD target一部分基于真实观测到的奖励,部分基于DQN网络在t+1时刻做出的预测。把DQN在t时刻做出的预测记作,然后算出TD error,.

2022-03-28 15:38:44 6768

原创 Multi-Step TD target

这是对TD算法的一种改进回顾Sarsa和Q-learning:这两种算法的TD target都包含一个rt,但是如果有多个奖励,则称为Multi-Step TD target,会让效果变得更好。每次都是观测一组transition,即,这样算出的TD target叫做one-step TD target,其实可以考虑多个奖励计算TD target,然后对动作价值进行一次更新。如同时使用两个transition的奖励,这样算出的就叫做Multi-Step TD target:推导:

2022-03-28 14:25:55 476

原创 Q-Learning算法

之前介绍过Sarsa算法,其是一种TD算法,目的是为了学习动作价值函数。Q-learning也是一种TD算法,目的是为了学习最优动作价值函数Q*,其实训练DQN的算法就是Q-learning。Sarsa算法和Q-learning算法的区别:两者的TD target略有不同。Q-learning的TD target:求最大化:求完最大化后,可以消掉,得到下面的等式:直接求期望比较困难,所以对期望进行蒙特卡洛近似,得到TD target:Q-learning算

2022-03-26 20:23:28 3203

原创 Sarsa算法

得到等式如下:用这个公式推导TD target:依赖于St,At,St+1。而状态价值函数是对和求期望,所以将的转换公式代入得到两项期望相加。上面的式子可以得到下面这个式子:由于直接求期望比较困难,所以这里用了蒙特卡洛近似。将近似成,将近似成,则该等式左边是该时刻的价值,右边是期望,我们把期望近似成TDtarget (yt)。yt部分基于真实观测到的奖励,部分基于做出的预测。TD learing的想法是将动作价值去接近yt。这是因为完全是估计,而yt一部分是基于真实的..

2022-03-26 19:48:00 2973

原创 价值学习&DQN value-based Reinforcement Learning

DQN网络:用一个神经网络Q来近似Q*。Q的参数是w,输入是状态s,输出是很多数值,是对动作的打分。DQN应用:输入是图片,用一个卷积层Conv把图片变成一个特征向量,再用一个全连接层把特征映射到输出的向量,输出的向量就是对动作的打分。向量每一个元素对应一个动作,如图所示,有三种动作(向上,向左,向右)。根据分析,此处该向上。分析:首先观测到状态St,用DQN把St作为输入,给所有的动作打分,找到分数最高的动作作at,Agent执行at后,状态会发生改变,用状态转移函数p

2022-03-23 15:32:16 165

原创 Actor-Critic方法

复习回顾:是动作价值函数的期望,如果动作是离散的,则是图中连加的形式,如果动作是连续的,则会是积分形式。是策略函数,可以计算动作的概率值,从而控制agent做运动,是动作价值函数,可以评价动作的好坏程度。可惜策略函数和都不知道,于是需要用两个神经网络分别近似这两个函数,再用Actor-Critic方法同时学习这两个神经网络。我们可以用策略网络 来近似策略函数,θ为策略网络的参数。我们用策略网络控制agent做运动,决策是由策略网络做的,所以策略网络也叫actor。相当于运动员。用另一个神..

2022-03-23 14:53:49 2296

原创 策略学习(Policy-Based Reinforcement Learning)

策略函数是一个概率密度函数。输入是状态s,输出的概率分布,反映的是接下来采取动作的概率。agent从中做一个随机抽样,如向上是0.7,则可能从中抽取向上的动作。策略网络,用一个策略网络去拟合近似策略函数。例子:输入是当前状态(可能是一张图片),经过若干卷积层之后生成特征向量,然后经过全连接层把特征向量映射到三维向量(因为游戏里有三个动作),然后用softmax激活函数(该激活函数能将输出全为正数且和为1)将其输出为概率分布,输出的即为每个动作的概率。动作价值函数:是Ut的条件期望,...

2022-03-22 20:32:21 1786

原创 强化学习基本概念

一、概述强化学习是智能体与环境不断交互,从而不断强化自己的决策能力的过程。首先环境(Env)会给智能体(Agent)一个观测值(Observation)(有时也称状态State),智能体接收到环境给的观测值之后会做出一个动作(Action),环境接收到智能体给的动作之后会做出一系列的反应,例如对这个动作给予一个奖励(Reward),以及给出一个新的观测值。智能体根据环境给予的奖励值去更新自己的策略(Policy)。可以说,强化学习的目的就是为了得到最优的策略。二、基本概念1.策略Poli

2022-03-15 15:17:56 1276

原创 PCA(数据降维算法)

PCA的目的是找到一个坐标系,使得数据只保留在一个维度时,信息损失最小(即避免投影上去,都集中在一个点)。数据变换的概念:下图这里左乘一个对角矩阵,相当于左乘了一个基底,实现对坐标轴的拉伸:下图这里再左乘一个R矩阵,实现方向旋转:数据处理流程图如下:白数据的定义:拉伸决定了方差最大的方向是横或纵。旋转决定了方差最大的方向的角度。立即推,我们要求的就是这个R矩阵。协方差定义:协方差矩阵:如图所示:随着拉伸和旋转,协方...

2022-01-08 15:40:25 1189

原创 LSTM模型

LSTM模型是为了解决RNN神经网络中的梯度爆炸问题。(1)模型思路:RNN是想把所有信息都记住,不管是有用的信息还是没用的信息。LSTM:设计一个记忆细胞(具备选择性记忆的功能),可以选择记忆重要信息,过滤掉噪声信息,减轻记忆负担。(2)LSTM前向传播:LSTM模型:RNN模型:两者相比,LSTM内部更加复杂,且RNN只有一条链路串联起各个神经元,而LSTM是由两条链路串联起来的。LSTM内部结构分析:和代表细胞记忆,前者为t-1时刻的记忆,后者为t时刻...

2022-01-01 15:24:18 18454 1

原创 RNN与CNN的特点及区别

从应用方面上来看,CNN用到做图像识别比较多,而RNN在做到语言处理多一点,如果拿来比喻的话,CNN如同眼睛一样,正是目前机器用来识别对象的图像处理器。相应地,RNN则是用于解析语言模式的数学引擎,就像耳朵和嘴巴。对于CNN神经网络,有一个基础的假设——人类的视觉总是会关注视线内特征最明显的点RNN的假设——事物的发展是按照时间序列展开的,即前一刻发生的事物会对未来的事情的发展产生影响。CNN1.结构层次卷积神经网络主要分数据输入层(Input Layer)、卷积计算层(CONV La

2021-12-27 15:47:23 12950 2

原创 激励函数相关内容

激励函数相关内容

2021-12-26 20:01:31 758

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除