洗花染白云-CSDN博客

import gymimport torchimport torch.nn as nnimport torch.nn.functional as Fimport numpy as npimport collectionsimport randomimport matplotlib.pyplot as pltfrom torch import optimclass DQN(nn.Module): def __init__(self, n_actions, n_inputs, lr=

2022-02-24 21:13:59 1446 2

原创 gym创建自己的强化学习环境env

创建自己的用于强化学习的环境env1，在C:\Users\xxx\anaconda3\envs\pytorch\Lib\site-packages\gym\envs\classic_control下创建环境文件myenv.py2,在C:\Users\xxx\anaconda3\envs\pytorch\Lib\site-packages\gym\envs_init_.py中注册# 创建自己的环境register( id="MyEnv-v0", entry_point="gym.env

2021-12-16 16:16:27 7842 4

原创 pytorch+从代码详细理解强化学习DDPG

代码参考了https://blog.csdn.net/qq_41871826/article/details/108540108import torchimport torch.nn as nnimport torch.nn.functional as Fimport numpy as npimport gymimport timeclass ActorNet(nn.Module): def __init__(self, s_dim, a_dim): super(Ac

2021-12-15 11:33:41 2594

原创 pytorch+从代码详细理解强化学习PolicyGradient

import gymimport torchimport torch.nn as nnimport torch.nn.functional as Fimport numpy as npimport collectionsimport randomfrom torch import optimclass PolicyGradient(nn.Module): def __init__(self, n_actions, n_inputs, lr=0.01): super(

2021-12-13 10:31:02 2047 2

原创 python学习笔记

collections.deque()deque是双边队列，超过maxlen后最早入队的出队 replay_memory = collections.deque(maxlen=5) replay_memory.append([2,4]) replay_memory.append([6,8]) replay_memory.append(10) replay_memory.append(11) replay_memory.append(12) replay_m

2021-12-09 20:33:39 484

原创 pytorch+从代码详细理解强化学习DQN

使用PyTorch的tensor，手动在网络中实现前向传播和反向传播：import torchdtype = torch.floatdevice = torch.device("cpu")# device = torch.device（“cuda：0”）＃取消注释以在GPU上运行# N是批量大小; D_in是输入维度;# H是隐藏的维度; D_out是输出维度。N, D_in, H, D_out = 64, 1000, 100, 10#创建随机输入和输出数据x = torch.ra.

2021-12-02 21:44:27 1897

原创学习笔记--numpy包及用numpy实现神经网络前向和反向传播

学习笔记–numpy包expand_dims()函数np.expand_dims(array,axis)#维度扩充一维数组a=np.array([1,2,3])b=np.expand_dims(a,axis=0)>>>b[[1,2,3]]c=np.expand_dims(a,axis=1)>>>c[[1],[2],[3]]二维数组a=np.array([[1,2,3],[4,5,6]])#a.shape=(2,3)'''在最高维加括号，即

2021-12-01 15:48:29 829

原创 pytorch快速入门

pytorchx = torch.empty(5, 3)#构造一个5x3矩阵，不初始化。x = torch.rand(5, 3)#构造一个随机初始化的矩阵x = torch.zeros(5, 3, dtype=torch.long)#构造一个矩阵全为 0，而且数据类型是 long.x = torch.tensor([5.5, 3])#构造一个张量，直接使用数据torch.add(x, y)z = x.view(-1, 8)#the size -1 is inferred from other d

2021-11-30 21:25:14 274

原创 gym环境CliffWalking代码

gym环境CliffWalking代码在gym/envs/toy_text/cliffwalking.py文件中import numpy as npimport sysfrom contextlib import closingfrom io import StringIOfrom gym.envs.toy_text import discreteUP = 0RIGHT = 1DOWN = 2LEFT = 3class CliffWalkingEnv(discrete.Discr

2021-11-28 20:31:37 3701

原创交叉熵损失函数(cross entropy loss)+softmax分类器

卷积神经网络处理多分类问题时，通常选择的损失函数是交叉熵损失函数(Cross Entropy Loss)。交叉熵表示的是模型实际输出和期望输出的差值，交叉熵的值越小，表明实际的输出和期望的结果越相近，效果越好。以识别手写数字为例，0~9共十个类别。识别数字1，神经网络的输出结果越接近[0,1,0,0,0,0,0,0,0,0]越好。交叉熵计算公式：需要注意的是，交叉熵描述的是两个概率分布之间的距离，然而神经网络的输出却不一定是一个概率分布，很多情况下是实数。如何将神经网络前向传播得到的结果也变成概率分

2020-05-13 23:19:27 2349

原创卷积神经网络相关计算（卷积层+全连接层）

1，卷积层计算假设输入图像为二维矩阵X，尺寸为mⅹn，卷积核数量为C，尺寸为cⅹc，经过卷积运算后得到的输出Y尺寸为((m-c)/s+1)×((n-c)/s+1)。（池化层输出尺寸计算同卷积层）为了直观的展示卷积操作，图2.1表示输入尺寸为5ⅹ5的图像，卷积核尺寸为3ⅹ3，滑动卷积窗口步长为1，偏置为0的卷积过程。二维图像的卷积运算简单的说就是对应相乘再相加，如图，11+20+31+60+71+80+111+120+131=35,其他依次类推。接下来计算卷积层的参数量，输入尺寸是32323，有

2020-05-12 22:07:20 6357

原创 django项目部署到iis（踩过的坑！）

1，python安装wfastcgi模块在python的Scripts目录下pip安装wfastcgi模块可能会出现错误，如只要更新setuptools即可再安装wfastcgi模块，就没问题了，在lib/site-packages下就能看到。2，将wfastcgi模块文件复制到django项目根目录下3,启动iis服务(win10)控制面板->程序->启用或关闭windows功能，打开界面如下，勾选internet信息服务下的web管理工具和万维网服务即可（请确认万维网服

2020-05-12 14:44:24 2472 1

weixin_41880928的博客

原创 python多进程

原创 Matlab连接STK获取可见性、距离数据

原创 DQN解决背包问题(pytorch版)