深度睡眠小能手
码龄6年
关注
提问 私信
  • 博客:13,710
    13,710
    总访问量
  • 9
    原创
  • 959,048
    排名
  • 12
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:陕西省
  • 加入CSDN时间: 2019-07-01
博客简介:

w18165269429的博客

查看详细资料
个人成就
  • 获得36次点赞
  • 内容获得12次评论
  • 获得101次收藏
  • 代码片获得271次分享
创作历程
  • 9篇
    2021年
成就勋章
TA的专栏
  • 笔记
    7篇
兴趣领域 设置
  • 人工智能
    深度学习神经网络pytorch数据分析
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

强化学习笔记------第五章----近端优化策略(PPO)(超详细)

本章数学问题太过复杂,建议去看看李宏毅老师这部分的内容,在此只贴出部分关于PPO的知识总结。基于on-policy的policy gradient有什么可改进之处?或者说其效率较低的原因在于?经典policy gradient的大部分时间花在sample data处,即当我们的agent与环境做了交互后,我们就要进行policy model的更新。但是对于一个回合我们仅能更新policy model一次,更新完后我们就要花时间去重新collect data,然后才能再次进行如上的更新。所以我们的可以自
原创
发布博客 2021.04.14 ·
2985 阅读 ·
1 点赞 ·
0 评论 ·
10 收藏

强化学习笔记------第四章----策略梯度(超详细)

Policy Gradient在强化学习中有3个组成部分:演员(actor)、环境(environment)和·奖励函数(reward function)·在强化学习中,环境跟奖励函数不是你可以控制的,环境跟奖励函数是在开始学习之前,就已经事先给定的。唯一能做的就是调整演员里面的策略(policy),使得演员可以得到最大的奖励。演员里面会有一个策略,这个策略决定了演员的行为。策略一般写成π。假设用深度学习的技术来做强化学习的话,策略就是一个网路。网络里面就有一堆参数,我们用 θ 来代表 \piπ
原创
发布博客 2021.04.14 ·
640 阅读 ·
3 点赞 ·
0 评论 ·
1 收藏

强化学习笔记------第三章----tabular methods(超详细)

Tabular Methods本章通过最简单的表格型的方法(tabular methods)来讲解如何使用value_based方法求解强化学习。Model-based如上图所示。去跟环境交互时,只能走完完整的一条路。这里面产生了一系列的一个决策过程,这就是跟环境交互产生了一个经验。**使用P函数(probability function)和R函数(reward function)去描述环境。**P函数就是状态转移函数的概率,P函数实际上反应的是环境的一个随机性。当我们知道P函数和R函数时,我们就
原创
发布博客 2021.04.01 ·
1250 阅读 ·
3 点赞 ·
0 评论 ·
6 收藏

强化学习笔记------第二章----马尔可夫决策过程(MDP)(超详细)

在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更容易理解马尔可夫决策过程。Markov Process(MP)Markov Property如果一个状态转移是符合马尔可夫的,那就是说下一个状态只取决于他当前状态,而跟他当前状态之前的状态都没有关系。假定状态历史为ht={s1,s2,…,st}(ht包含了之前的所有状态),如果一个状态转移是符合马尔科夫的,也就是满足如下条件:从当前st转移到st+1这个状态,他就直接等于它之前所有的
原创
发布博客 2021.03.31 ·
2040 阅读 ·
4 点赞 ·
1 评论 ·
21 收藏

强化学习笔记------第一章----强化学习概述(超详细)

强化学习讨论的问题是一个智能体(agent)怎么在一个复杂不确定的环境(environment)里面去极大化他能获得的奖励。首先,我们可以把强化学习和监督学习做一个对比。例如图片分类,===监督学习(supervised learning)==指的是我们有一大堆标注的数据,如飞机、汽车等等,这些图片都要满足独立同分布(i.i.d),意思就是他们之间是没有关联的。然后我们训练一个分类器,为了分辨出这个图片是车辆或是飞机,我们需要将真实的标签给神经网络,去训练这个网络,当网络做出了一个错误的预测,就会直接
原创
发布博客 2021.03.30 ·
1479 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

airplane111.7z

发布资源 2021.03.29 ·
7z

RNN实战之二 -------------------------------------RNN 实现机场流量预测(序列预测)

对序列数据而言,因为它有着时序性,即前面的数据对后面数据 有影响,所以LSTM的记忆性能够适用于这种场景。代码中有详细的注释,可以帮助大家理解。import torchimport matplotlib.pyplot as pltimport pandas as pdimport numpy as npfrom torch import nnfrom torch.autograd import Variabledata_csv = pd.read_csv('./data/data.csv',
原创
发布博客 2021.03.29 ·
1040 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

RNN实战之一 -------------------------------------RNN 实现MNIST手写数字分类

前言首先需要将图片数据转化为一个序列数据,MNIST手写数字的图片大小是28×28,那么可以将每张图片看作是长为28的序列,序列中的每个元素的特征维度是28,这样就将图片变成了一个序列。同时考虑到循环神经网络的记忆性,所以图片从左往右输入网络的时候,网络可以记忆住前面观察到的东西,也就是说一张图片虽然被切割成了28份,但是网络能够通过记住前面的部分,同时和后面的部分结合 得到最后预测数字的输出结果,所以从理论上而言是行得通的。实验代码实验代码如下:import torchimport torch.
原创
发布博客 2021.03.27 ·
294 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

循环神经网络的PyTorch实现

1.PyTorch的循环网络模块1 标准RNN在PyTorch中的调用也非常简单,使用 nn.RNN()即可调用,下 面依次介绍其中的参数。input_size 表示输入的特征维度hidden_size 表示输出h的特征维度num_layers 表示网络层数,默认为1层nonlinearity 表示非线性激活函数选择,默认为tanh,可以选择relubias 表示是否使用偏置,默认为Truebatch_first 决定网络输入的维度顺序,默认网络输入是按照(seq,batch,fe
原创
发布博客 2021.03.26 ·
652 阅读 ·
3 点赞 ·
0 评论 ·
6 收藏

精简版的UCF101数据集

发布资源 2021.03.26 ·
7z

基于PyTorch搭建CNN实现视频图片动作分类任务

这里写自定义目录标题1 前言1.1 数据集1.2 运行环境1.3 总体概述2 项目开始2.1 数据加载2.1.1 Dataset 类2.2.2 Dataloader类2.2 数据解释和处理2.3 搭建网络模型3 训练步骤及模块4 训练并验证5 使用Resnet18网络训练1 前言对视频数据的处理是计算机视觉领域非常重要的一部分内容。视频主要是由大量的视频帧图像所构成。相比于单一的图像,视频中多出了时间维度的信息,物体在先后帧中出现的顺序和状态等信息都非常关键。同时视频数据的数据量更大,而且相邻帧间差距较
原创
发布博客 2021.03.26 ·
3275 阅读 ·
17 点赞 ·
11 评论 ·
48 收藏