- 博客(14)
- 资源 (1)
- 收藏
- 关注
原创 DQN解决背包问题(pytorch版)
import gymimport torchimport torch.nn as nnimport torch.nn.functional as Fimport numpy as npimport collectionsimport randomimport matplotlib.pyplot as pltfrom torch import optimclass DQN(nn.Module): def __init__(self, n_actions, n_inputs, lr=
2022-02-24 21:13:59
1446
2
原创 gym创建自己的强化学习环境env
创建自己的用于强化学习的环境env1,在C:\Users\xxx\anaconda3\envs\pytorch\Lib\site-packages\gym\envs\classic_control下创建环境文件myenv.py2,在C:\Users\xxx\anaconda3\envs\pytorch\Lib\site-packages\gym\envs_init_.py中注册# 创建自己的环境register( id="MyEnv-v0", entry_point="gym.env
2021-12-16 16:16:27
7842
4
原创 pytorch+从代码详细理解强化学习DDPG
代码参考了https://blog.csdn.net/qq_41871826/article/details/108540108import torchimport torch.nn as nnimport torch.nn.functional as Fimport numpy as npimport gymimport timeclass ActorNet(nn.Module): def __init__(self, s_dim, a_dim): super(Ac
2021-12-15 11:33:41
2594
原创 pytorch+从代码详细理解强化学习PolicyGradient
import gymimport torchimport torch.nn as nnimport torch.nn.functional as Fimport numpy as npimport collectionsimport randomfrom torch import optimclass PolicyGradient(nn.Module): def __init__(self, n_actions, n_inputs, lr=0.01): super(
2021-12-13 10:31:02
2047
2
原创 python学习笔记
collections.deque()deque是双边队列,超过maxlen后最早入队的出队 replay_memory = collections.deque(maxlen=5) replay_memory.append([2,4]) replay_memory.append([6,8]) replay_memory.append(10) replay_memory.append(11) replay_memory.append(12) replay_m
2021-12-09 20:33:39
484
原创 pytorch+从代码详细理解强化学习DQN
使用PyTorch的tensor,手动在网络中实现前向传播和反向传播:import torchdtype = torch.floatdevice = torch.device("cpu")# device = torch.device(“cuda:0”)#取消注释以在GPU上运行# N是批量大小; D_in是输入维度;# H是隐藏的维度; D_out是输出维度。N, D_in, H, D_out = 64, 1000, 100, 10#创建随机输入和输出数据x = torch.ra.
2021-12-02 21:44:27
1897
原创 学习笔记--numpy包及用numpy实现神经网络前向和反向传播
学习笔记–numpy包expand_dims()函数np.expand_dims(array,axis)#维度扩充一维数组a=np.array([1,2,3])b=np.expand_dims(a,axis=0)>>>b[[1,2,3]]c=np.expand_dims(a,axis=1)>>>c[[1],[2],[3]]二维数组a=np.array([[1,2,3],[4,5,6]])#a.shape=(2,3)'''在最高维加括号,即
2021-12-01 15:48:29
829
原创 pytorch快速入门
pytorchx = torch.empty(5, 3)#构造一个5x3矩阵,不初始化。x = torch.rand(5, 3)#构造一个随机初始化的矩阵x = torch.zeros(5, 3, dtype=torch.long)#构造一个矩阵全为 0,而且数据类型是 long.x = torch.tensor([5.5, 3])#构造一个张量,直接使用数据torch.add(x, y)z = x.view(-1, 8)#the size -1 is inferred from other d
2021-11-30 21:25:14
274
原创 gym环境CliffWalking代码
gym环境CliffWalking代码在gym/envs/toy_text/cliffwalking.py文件中import numpy as npimport sysfrom contextlib import closingfrom io import StringIOfrom gym.envs.toy_text import discreteUP = 0RIGHT = 1DOWN = 2LEFT = 3class CliffWalkingEnv(discrete.Discr
2021-11-28 20:31:37
3701
原创 交叉熵损失函数(cross entropy loss)+softmax分类器
卷积神经网络处理多分类问题时,通常选择的损失函数是交叉熵损失函数(Cross Entropy Loss)。交叉熵表示的是模型实际输出和期望输出的差值,交叉熵的值越小,表明实际的输出和期望的结果越相近,效果越好。以识别手写数字为例,0~9共十个类别。识别数字1,神经网络的输出结果越接近[0,1,0,0,0,0,0,0,0,0]越好。交叉熵计算公式:需要注意的是,交叉熵描述的是两个概率分布之间的距离,然而神经网络的输出却不一定是一个概率分布,很多情况下是实数。如何将神经网络前向传播得到的结果也变成概率分
2020-05-13 23:19:27
2349
原创 卷积神经网络相关计算(卷积层+全连接层)
1,卷积层计算假设输入图像为二维矩阵X,尺寸为mⅹn,卷积核数量为C,尺寸为cⅹc,经过卷积运算后得到的输出Y尺寸为((m-c)/s+1)×((n-c)/s+1)。(池化层输出尺寸计算同卷积层)为了直观的展示卷积操作,图2.1表示输入尺寸为5ⅹ5的图像,卷积核尺寸为3ⅹ3,滑动卷积窗口步长为1,偏置为0的卷积过程。二维图像的卷积运算简单的说就是对应相乘再相加,如图,11+20+31+60+71+80+111+120+131=35,其他依次类推。接下来计算卷积层的参数量,输入尺寸是32323,有
2020-05-12 22:07:20
6357
原创 django项目部署到iis(踩过的坑!)
1,python安装wfastcgi模块在python的Scripts目录下pip安装wfastcgi模块可能会出现错误,如只要更新setuptools即可再安装wfastcgi模块,就没问题了,在lib/site-packages下就能看到。2,将wfastcgi模块文件复制到django项目根目录下3,启动iis服务(win10)控制面板->程序->启用或关闭windows功能,打开界面如下,勾选internet信息服务下的web管理工具和万维网服务即可(请确认万维网服
2020-05-12 14:44:24
2472
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅