自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (2)
  • 收藏
  • 关注

原创 强化学习笔记------第五章----近端优化策略(PPO)(超详细)

本章数学问题太过复杂,建议去看看李宏毅老师这部分的内容,在此只贴出部分关于PPO的知识总结。基于on-policy的policy gradient有什么可改进之处?或者说其效率较低的原因在于?经典policy gradient的大部分时间花在sample data处,即当我们的agent与环境做了交互后,我们就要进行policy model的更新。但是对于一个回合我们仅能更新policy model一次,更新完后我们就要花时间去重新collect data,然后才能再次进行如上的更新。所以我们的可以自

2021-04-14 14:51:17 2929

原创 强化学习笔记------第四章----策略梯度(超详细)

Policy Gradient在强化学习中有3个组成部分:演员(actor)、环境(environment)和·奖励函数(reward function)·在强化学习中,环境跟奖励函数不是你可以控制的,环境跟奖励函数是在开始学习之前,就已经事先给定的。唯一能做的就是调整演员里面的策略(policy),使得演员可以得到最大的奖励。演员里面会有一个策略,这个策略决定了演员的行为。策略一般写成π。假设用深度学习的技术来做强化学习的话,策略就是一个网路。网络里面就有一堆参数,我们用 θ 来代表 \piπ

2021-04-14 14:36:21 598

原创 强化学习笔记------第三章----tabular methods(超详细)

Tabular Methods本章通过最简单的表格型的方法(tabular methods)来讲解如何使用value_based方法求解强化学习。Model-based如上图所示。去跟环境交互时,只能走完完整的一条路。这里面产生了一系列的一个决策过程,这就是跟环境交互产生了一个经验。**使用P函数(probability function)和R函数(reward function)去描述环境。**P函数就是状态转移函数的概率,P函数实际上反应的是环境的一个随机性。当我们知道P函数和R函数时,我们就

2021-04-01 21:05:17 1144

原创 强化学习笔记------第二章----马尔可夫决策过程(MDP)(超详细)

在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更容易理解马尔可夫决策过程。Markov Process(MP)Markov Property如果一个状态转移是符合马尔可夫的,那就是说下一个状态只取决于他当前状态,而跟他当前状态之前的状态都没有关系。假定状态历史为ht={s1,s2,…,st}(ht包含了之前的所有状态),如果一个状态转移是符合马尔科夫的,也就是满足如下条件:从当前st转移到st+1这个状态,他就直接等于它之前所有的

2021-03-31 17:08:04 1959 1

原创 强化学习笔记------第一章----强化学习概述(超详细)

强化学习讨论的问题是一个智能体(agent)怎么在一个复杂不确定的环境(environment)里面去极大化他能获得的奖励。首先,我们可以把强化学习和监督学习做一个对比。例如图片分类,===监督学习(supervised learning)==指的是我们有一大堆标注的数据,如飞机、汽车等等,这些图片都要满足独立同分布(i.i.d),意思就是他们之间是没有关联的。然后我们训练一个分类器,为了分辨出这个图片是车辆或是飞机,我们需要将真实的标签给神经网络,去训练这个网络,当网络做出了一个错误的预测,就会直接

2021-03-30 21:11:14 1402

原创 RNN实战之二 -------------------------------------RNN 实现机场流量预测(序列预测)

对序列数据而言,因为它有着时序性,即前面的数据对后面数据 有影响,所以LSTM的记忆性能够适用于这种场景。代码中有详细的注释,可以帮助大家理解。import torchimport matplotlib.pyplot as pltimport pandas as pdimport numpy as npfrom torch import nnfrom torch.autograd import Variabledata_csv = pd.read_csv('./data/data.csv',

2021-03-29 09:11:07 985

原创 RNN实战之一 -------------------------------------RNN 实现MNIST手写数字分类

前言首先需要将图片数据转化为一个序列数据,MNIST手写数字的图片大小是28×28,那么可以将每张图片看作是长为28的序列,序列中的每个元素的特征维度是28,这样就将图片变成了一个序列。同时考虑到循环神经网络的记忆性,所以图片从左往右输入网络的时候,网络可以记忆住前面观察到的东西,也就是说一张图片虽然被切割成了28份,但是网络能够通过记住前面的部分,同时和后面的部分结合 得到最后预测数字的输出结果,所以从理论上而言是行得通的。实验代码实验代码如下:import torchimport torch.

2021-03-27 15:36:14 269

原创 循环神经网络的PyTorch实现

1.PyTorch的循环网络模块1 标准RNN在PyTorch中的调用也非常简单,使用 nn.RNN()即可调用,下 面依次介绍其中的参数。input_size 表示输入的特征维度hidden_size 表示输出h的特征维度num_layers 表示网络层数,默认为1层nonlinearity 表示非线性激活函数选择,默认为tanh,可以选择relubias 表示是否使用偏置,默认为Truebatch_first 决定网络输入的维度顺序,默认网络输入是按照(seq,batch,fe

2021-03-26 16:59:45 605

原创 基于PyTorch搭建CNN实现视频图片动作分类任务

这里写自定义目录标题1 前言1.1 数据集1.2 运行环境1.3 总体概述2 项目开始2.1 数据加载2.1.1 Dataset 类2.2.2 Dataloader类2.2 数据解释和处理2.3 搭建网络模型3 训练步骤及模块4 训练并验证5 使用Resnet18网络训练1 前言对视频数据的处理是计算机视觉领域非常重要的一部分内容。视频主要是由大量的视频帧图像所构成。相比于单一的图像,视频中多出了时间维度的信息,物体在先后帧中出现的顺序和状态等信息都非常关键。同时视频数据的数据量更大,而且相邻帧间差距较

2021-03-26 10:49:56 3015 11

airplane111.7z

airplane111.7z

2021-03-29

精简版的UCF101数据集

精简版的UCF101数据集

2021-03-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除