深度睡眠小能手-CSDN博客

原创强化学习笔记------第五章----近端优化策略（PPO）（超详细）

本章数学问题太过复杂，建议去看看李宏毅老师这部分的内容，在此只贴出部分关于PPO的知识总结。基于on-policy的policy gradient有什么可改进之处？或者说其效率较低的原因在于？经典policy gradient的大部分时间花在sample data处，即当我们的agent与环境做了交互后，我们就要进行policy model的更新。但是对于一个回合我们仅能更新policy model一次，更新完后我们就要花时间去重新collect data，然后才能再次进行如上的更新。所以我们的可以自

2021-04-14 14:51:17 3046

原创强化学习笔记------第四章----策略梯度（超详细）

Policy Gradient在强化学习中有3个组成部分：演员(actor)、环境(environment)和·奖励函数(reward function)·在强化学习中，环境跟奖励函数不是你可以控制的，环境跟奖励函数是在开始学习之前，就已经事先给定的。唯一能做的就是调整演员里面的策略(policy)，使得演员可以得到最大的奖励。演员里面会有一个策略，这个策略决定了演员的行为。策略一般写成π。假设用深度学习的技术来做强化学习的话，策略就是一个网路。网络里面就有一堆参数，我们用 θ 来代表 \piπ

2021-04-14 14:36:21 680

原创强化学习笔记------第三章----tabular methods（超详细）

Tabular Methods本章通过最简单的表格型的方法（tabular methods）来讲解如何使用value_based方法求解强化学习。Model-based如上图所示。去跟环境交互时，只能走完完整的一条路。这里面产生了一系列的一个决策过程，这就是跟环境交互产生了一个经验。**使用P函数（probability function）和R函数（reward function）去描述环境。**P函数就是状态转移函数的概率，P函数实际上反应的是环境的一个随机性。当我们知道P函数和R函数时，我们就

2021-04-01 21:05:17 1335

原创强化学习笔记------第二章----马尔可夫决策过程（MDP）（超详细）

在介绍马尔可夫决策过程之前，先介绍它的简化版本：马尔可夫链以及马尔可夫奖励过程，通过跟这两种过程的比较，我们可以更容易理解马尔可夫决策过程。Markov Process(MP)Markov Property如果一个状态转移是符合马尔可夫的，那就是说下一个状态只取决于他当前状态，而跟他当前状态之前的状态都没有关系。假定状态历史为ht={s1,s2,…,st}(ht包含了之前的所有状态)，如果一个状态转移是符合马尔科夫的，也就是满足如下条件：从当前st转移到st+1这个状态，他就直接等于它之前所有的

2021-03-31 17:08:04 2160 1

原创强化学习笔记------第一章----强化学习概述（超详细）

强化学习讨论的问题是一个智能体（agent）怎么在一个复杂不确定的环境（environment）里面去极大化他能获得的奖励。首先，我们可以把强化学习和监督学习做一个对比。例如图片分类，===监督学习（supervised learning）==指的是我们有一大堆标注的数据，如飞机、汽车等等，这些图片都要满足独立同分布（i.i.d），意思就是他们之间是没有关联的。然后我们训练一个分类器，为了分辨出这个图片是车辆或是飞机，我们需要将真实的标签给神经网络，去训练这个网络，当网络做出了一个错误的预测，就会直接

2021-03-30 21:11:14 1514

原创 RNN实战之二 -------------------------------------RNN 实现机场流量预测（序列预测）

对序列数据而言，因为它有着时序性，即前面的数据对后面数据有影响，所以LSTM的记忆性能够适用于这种场景。代码中有详细的注释，可以帮助大家理解。import torchimport matplotlib.pyplot as pltimport pandas as pdimport numpy as npfrom torch import nnfrom torch.autograd import Variabledata_csv = pd.read_csv('./data/data.csv',

2021-03-29 09:11:07 1094

原创 RNN实战之一 -------------------------------------RNN 实现MNIST手写数字分类

前言首先需要将图片数据转化为一个序列数据，MNIST手写数字的图片大小是28×28，那么可以将每张图片看作是长为28的序列，序列中的每个元素的特征维度是28，这样就将图片变成了一个序列。同时考虑到循环神经网络的记忆性，所以图片从左往右输入网络的时候，网络可以记忆住前面观察到的东西，也就是说一张图片虽然被切割成了28份，但是网络能够通过记住前面的部分，同时和后面的部分结合得到最后预测数字的输出结果，所以从理论上而言是行得通的。实验代码实验代码如下：import torchimport torch.

2021-03-27 15:36:14 313

原创循环神经网络的PyTorch实现

1.PyTorch的循环网络模块1 标准RNN在PyTorch中的调用也非常简单，使用 nn.RNN（）即可调用，下面依次介绍其中的参数。input_size 表示输入的特征维度hidden_size 表示输出h的特征维度num_layers 表示网络层数，默认为1层nonlinearity 表示非线性激活函数选择，默认为tanh，可以选择relubias 表示是否使用偏置，默认为Truebatch_first 决定网络输入的维度顺序，默认网络输入是按照（seq，batch，fe

2021-03-26 16:59:45 674

原创基于PyTorch搭建CNN实现视频图片动作分类任务

这里写自定义目录标题1 前言1.1 数据集1.2 运行环境1.3 总体概述2 项目开始2.1 数据加载2.1.1 Dataset 类2.2.2 Dataloader类2.2 数据解释和处理2.3 搭建网络模型3 训练步骤及模块4 训练并验证5 使用Resnet18网络训练1 前言对视频数据的处理是计算机视觉领域非常重要的一部分内容。视频主要是由大量的视频帧图像所构成。相比于单一的图像，视频中多出了时间维度的信息，物体在先后帧中出现的顺序和状态等信息都非常关键。同时视频数据的数据量更大，而且相邻帧间差距较

2021-03-26 10:49:56 3437 11