![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
笔记
文章平均质量分 75
深度睡眠小能手
这个作者很懒,什么都没留下…
展开
-
强化学习笔记------第五章----近端优化策略(PPO)(超详细)
本章数学问题太过复杂,建议去看看李宏毅老师这部分的内容,在此只贴出部分关于PPO的知识总结。基于on-policy的policy gradient有什么可改进之处?或者说其效率较低的原因在于?经典policy gradient的大部分时间花在sample data处,即当我们的agent与环境做了交互后,我们就要进行policy model的更新。但是对于一个回合我们仅能更新policy model一次,更新完后我们就要花时间去重新collect data,然后才能再次进行如上的更新。所以我们的可以自原创 2021-04-14 14:51:17 · 2929 阅读 · 0 评论 -
强化学习笔记------第四章----策略梯度(超详细)
Policy Gradient在强化学习中有3个组成部分:演员(actor)、环境(environment)和·奖励函数(reward function)·在强化学习中,环境跟奖励函数不是你可以控制的,环境跟奖励函数是在开始学习之前,就已经事先给定的。唯一能做的就是调整演员里面的策略(policy),使得演员可以得到最大的奖励。演员里面会有一个策略,这个策略决定了演员的行为。策略一般写成π。假设用深度学习的技术来做强化学习的话,策略就是一个网路。网络里面就有一堆参数,我们用 θ 来代表 \piπ原创 2021-04-14 14:36:21 · 598 阅读 · 0 评论 -
强化学习笔记------第三章----tabular methods(超详细)
Tabular Methods本章通过最简单的表格型的方法(tabular methods)来讲解如何使用value_based方法求解强化学习。Model-based如上图所示。去跟环境交互时,只能走完完整的一条路。这里面产生了一系列的一个决策过程,这就是跟环境交互产生了一个经验。**使用P函数(probability function)和R函数(reward function)去描述环境。**P函数就是状态转移函数的概率,P函数实际上反应的是环境的一个随机性。当我们知道P函数和R函数时,我们就原创 2021-04-01 21:05:17 · 1144 阅读 · 0 评论 -
RNN实战之二 -------------------------------------RNN 实现机场流量预测(序列预测)
对序列数据而言,因为它有着时序性,即前面的数据对后面数据 有影响,所以LSTM的记忆性能够适用于这种场景。代码中有详细的注释,可以帮助大家理解。import torchimport matplotlib.pyplot as pltimport pandas as pdimport numpy as npfrom torch import nnfrom torch.autograd import Variabledata_csv = pd.read_csv('./data/data.csv',原创 2021-03-29 09:11:07 · 985 阅读 · 0 评论 -
RNN实战之一 -------------------------------------RNN 实现MNIST手写数字分类
前言首先需要将图片数据转化为一个序列数据,MNIST手写数字的图片大小是28×28,那么可以将每张图片看作是长为28的序列,序列中的每个元素的特征维度是28,这样就将图片变成了一个序列。同时考虑到循环神经网络的记忆性,所以图片从左往右输入网络的时候,网络可以记忆住前面观察到的东西,也就是说一张图片虽然被切割成了28份,但是网络能够通过记住前面的部分,同时和后面的部分结合 得到最后预测数字的输出结果,所以从理论上而言是行得通的。实验代码实验代码如下:import torchimport torch.原创 2021-03-27 15:36:14 · 269 阅读 · 0 评论 -
循环神经网络的PyTorch实现
1.PyTorch的循环网络模块1 标准RNN在PyTorch中的调用也非常简单,使用 nn.RNN()即可调用,下 面依次介绍其中的参数。input_size 表示输入的特征维度hidden_size 表示输出h的特征维度num_layers 表示网络层数,默认为1层nonlinearity 表示非线性激活函数选择,默认为tanh,可以选择relubias 表示是否使用偏置,默认为Truebatch_first 决定网络输入的维度顺序,默认网络输入是按照(seq,batch,fe原创 2021-03-26 16:59:45 · 605 阅读 · 0 评论 -
基于PyTorch搭建CNN实现视频图片动作分类任务
这里写自定义目录标题1 前言1.1 数据集1.2 运行环境1.3 总体概述2 项目开始2.1 数据加载2.1.1 Dataset 类2.2.2 Dataloader类2.2 数据解释和处理2.3 搭建网络模型3 训练步骤及模块4 训练并验证5 使用Resnet18网络训练1 前言对视频数据的处理是计算机视觉领域非常重要的一部分内容。视频主要是由大量的视频帧图像所构成。相比于单一的图像,视频中多出了时间维度的信息,物体在先后帧中出现的顺序和状态等信息都非常关键。同时视频数据的数据量更大,而且相邻帧间差距较原创 2021-03-26 10:49:56 · 3015 阅读 · 11 评论