深度学习
文章平均质量分 91
DeepBrainWH
西工大计算机在读硕士一枚, 研究方向机器人智能决策,对图像处理,GAN, 情感分析较为感兴趣~
展开
-
PyTorch网络权值初始化的几种方式
PyTorch网络权值初始化的几种方式pytorch在torch.nn.init中提供了常用的初始化方法函数,这里简单介绍,方便查询使用。介绍分两部分:Xavier,kaiming系列;其他方法分布Xavier初始化方法,论文在Understanding the difficulty of training deep feedforward neural networks.公式推导是从“方差一致性”出发,初始化的分布有均匀分布和正态分布两种。1. Xavier均匀分布torch.nn.i原创 2021-04-18 19:23:56 · 1454 阅读 · 0 评论 -
2. 强化学习篇:Deep Successor Representation(DSR) (完善中...)
DSR学习笔记及试验主要参考文献: [1] Gershman, Samuel J. "The successor representation: its computational logic and neural substrates."Journal of Neuroscience38.33 (2018): 7193-7200. [2]Kulkarni, Tejas D., et al. "Deep successor reinforcement learning."arX...原创 2020-11-28 22:11:05 · 1063 阅读 · 0 评论 -
1. 强化学习篇: Dyna-Q
像之前我们讨论的大量强化学习方法(DQN, Double DQN, Priorized DQN, Policy Gradient, PPO等等)都是基于model-free的,这也是RL学习的主要优势之一,因为大部分情况下agent所处的环境会非常复杂,很难获得一个model。但是如果我们想学习一个environment模型,或者说是我们已经有一个environment模型,该如何利用这个environment来加快阿agent学习进程?这篇文章就一起探讨下学习处RL的environment模型。文章主要从原创 2020-11-26 23:16:27 · 6346 阅读 · 0 评论 -
深度学习笔记-tf.GradientTape用法详解
TensorFlow GradientTap 用法详解最近看到莫凡老师上传的GAN相关的代码时, 发现莫凡老师写的GAN网络的代码使用了tf.GradientType()进行先计算模型的梯度,然后利用优化器的apply_gradients()方法进行训练优化,于是查了一下相应的api总结出了此篇文档.简单的梯度计算import tensorflow as tfx = tf.Variable(3.)with tf.GradientTape() as tape: tape.watch(x)原创 2020-10-23 14:17:12 · 7883 阅读 · 1 评论 -
机器学习&深度学习优化算法
梯度下降算法1.给定数据集X = {}, 数据标记为:Y = {} 学习器:, 学习率:。 for { } 2.批量梯度下降算法(BGD)批量梯度下降算法又称之为最速梯度下降,这里的“批量”指的是全部一起处理的意思。2.给定数据集X = {}, 数据标记为:Y = {} 学习器:, 学习率:。 for ...原创 2018-11-21 21:44:39 · 220 阅读 · 0 评论 -
关于Softmax函数
定义评分函数: 我们定义归一化概率: 将(1)式和(2)式整合以下,我们有:其中m表示数据xde 维度, n代表输出分类数据z的维度,即:分类的种类数。2.SoftMax 上述表达式还缺点东西,因为我们想要的预测比分尽可能的高,...原创 2018-11-22 19:02:57 · 1818 阅读 · 0 评论 -
3种softmax函数python实现方式(显式循环,向量,矩阵)
Python三种方式实现Softmax损失函数计算python实现的softmax损失函数代码,我们先回顾一下softmax损失函数的定义:其中右边一项为第y=j项的概率值。令J(w) = log(J(w)):损失函数的梯度: import numpy as np""" 第一种计算softmax_loss, 在计算每一分类的概率时,用到了矩阵运算。""...原创 2018-11-25 16:40:58 · 4924 阅读 · 2 评论 -
深度学习正则化-参数范数惩罚(L1,L2范数)
L0范数惩罚机器学习中最常用的正则化措施是限制模型的能力,其中最著名的方法就是L1和L2范数惩罚。 假如我们需要拟合一批二次函数分布的数据,但我们并不知道数据的分布规律,我们可能会先使用一次函数去拟合,再使用二次函数、三次、四次、等等次数的函数去拟合,从中选择拟合效果最好的一个函数来作为我们最终的模型。 上面的方法未免显得有些太繁琐,如果有一批数据输入指数为...原创 2018-11-24 20:25:11 · 11076 阅读 · 3 评论