深度学习
文章平均质量分 65
坚硬果壳_
坦然接受自己的平庸并保持努力。
展开
-
【pytorch】ConvTranspose2d的计算公式
埃拉托斯特尼筛法原理(埃氏筛法):用于筛选质数什么是质数:质数(prime number)又称素数,质数定义为在大于1的自然数中,除了1和它本身以外不再有其他因数。 2.埃氏筛法原理将列表中筛选剩下的数的所有的倍数删除,最后留下的一定是质数。...原创 2021-07-20 11:55:46 · 1564 阅读 · 0 评论 -
CNN 中的等变(equivariant)和不变(invariant)
等变性 equivariant通俗解释: 对于一个函数,如果你对其输入施加的变换也会同样反应在输出上,那么这个函数就对该变换具有等变性。更严谨些:对于一个函数/特征以及一个变换, 如果我们有:则称对变换有等变性。举一个例子,假设我们的变换是将图像向右平移一段距离,我们的函数是检测一个人脸的位置(比如说输出坐标),就是先将图片像右移,接着我们在新图较之原图偏右的位置检测到人脸;则是我们先检测到人脸, 然后再将人脸往右移一点。这二者的输出是一样的,与我们施加变换的顺序无关。不变性 inv转载 2021-03-03 18:11:23 · 5424 阅读 · 4 评论 -
Huber loss
Huber Loss 是一个用于回归问题的带参损失函数, 优点是能增强平方误差损失函数(MSE, mean square error)对噪声(或叫离群点,outliers)的鲁棒性。当预测偏差小于 δ 时,它采用平方误差,当预测偏差大于 δ 时,采用的线性误差。相比于最小二乘的线性回归,Huber Loss降低了对离群点的惩罚程度,所以 Huber Loss 是一种常用的鲁棒的回归损失函数。Definition由定义可知 Huber Loss 处处可导...原创 2021-02-07 23:05:08 · 510 阅读 · 0 评论 -
深度学习的激活函数 :sigmoid、tanh、ReLU 、Leaky Relu、RReLU、softsign 、softplus、GELU
激活函数可以分为两大类饱和激活函数:sigmoid、 tanh与Sigmoid/tanh函数相比,ReLu激活函数的优点是:非饱和激活函数:ReLU 、Leaky Relu 、ELU【指数线性单元】、PReLU【参数化的ReLU 】、RReLU【随机ReLU】 (1)sigmoid 函数 (以前最常用) 参数 α> 0可控制其斜率。sigmoid 将一个实值输入压缩至[0,1]的范围,也可用于二分类的输出层。 (2)tanh (...转载 2021-02-07 23:02:45 · 2142 阅读 · 0 评论 -
归纳偏置/归纳偏差/inductive bias
归纳偏置/归纳偏差/inductive bias“归纳偏差”中的“偏差”容易让人想到数据估计中估计值与真实值的差别error,会让人认为“归纳偏差”是某种需要被规避的错误、误差,但事实并非如此,inductive bias在机器学习中起到的是积极作用。更合适的翻译应该是“归纳偏置”:归纳是自然科学中常用的两大方法(归纳与演绎,induction and deduction)之一,指的是从一些例子中寻找共性、泛化,形成一个比较通用的规则的过程;而“bias”“偏置”是指我们对模型的偏好。因此归纳偏置可转载 2020-11-06 16:50:14 · 6287 阅读 · 0 评论 -
Davies-Bouldin指数(DBI)
Davies-Bouldin指数(DBI)(由大卫L·戴维斯和唐纳德·Bouldin提出)是一种评估度量的聚类算法。以下是对这个算法的理解:假如我们有一堆数据点,我们把它们分成n个簇类。公式们如下:1、DBI定义了一个分散度的值Si:表示第i个类中,度量数据点的分散程度,计算公式为: Xj表示第i类中第j个数据点;Ai表示第i类的中心;Ti表示第i类中数据点的个数;q取1表示:各点到中心的距离的均值,q取2时表示:各点到中心距离的标准差,它们都可以用来衡量分散程度。2、DBI定.转载 2020-11-02 15:09:06 · 14861 阅读 · 2 评论 -
几种归一化方法
一. 本文的内容包括: 1.Batch Normalization,其论文:https://arxiv.org/pdf/1502.03167.pdf 2.Layer Normalizaiton,其论文:https://arxiv.org/pdf/1607.06450v1.pdf 3.Instance Normalization,其论文:https://arxiv.org/pdf/1607.08022.pdf 4.Group Normalization,其论文:...原创 2020-08-24 09:26:12 · 4728 阅读 · 0 评论 -
label smoothing 标签平滑
Label smoothing Regularization(LSR)是深度学习中的一种优化方法,即“标签平滑归一化”,它的优化对象是Label。可以理解为给样本标签引入一定的噪声,避免模型过拟合。对于分类问题,尤其是多类别分类问题中,常常把类别向量表示成one-hot vector,也叫做硬目标。简单地说,就是对于多分类向量,计算机中往往用[0, 1, 3]等此类离散的、随机的而非有序(连续)的向量表示,而one-hot vector对应的向量便可表示为[0, 1, 0],即对于长度为n 的数.原创 2020-08-20 22:45:58 · 468 阅读 · 0 评论 -
GridMask Data Augmentation
简介GridMask是一种新的数据增强方法,它通过信息去除,在各种计算机视觉任务中实现了最先进的结果。现存的数据增广方式主要分为以下三种:1.空间变换,random scale, crop, flip,rotation2.颜色扭曲,改变透明度,亮度等3.信息删除,random erasing, cutour, hide-and-seek信息删除信息删除方法的核心要求是避免连续区域的过度删除和保留。一个成功的信息删除方法应该在删除和保留图像上的区域信息之间达到合理的平衡。原因有两方面:原创 2020-08-20 20:36:38 · 636 阅读 · 0 评论 -
CNN经典网络:LeNet、AlexNet、NIN、VGG
LeNetCNN的开山之作,是LeCun在98年解决手写是数字识别任务时提出的,从那时起CNN的基本架构就定下来了:卷积、池化、全连接层。网络结构如图 3.1 所示,最早的 LeNet 有 7 层网络,包括 3 个卷积层, 2 个池化层,2 个全连接层,其中输入图像的尺寸是 32x32。 C1 层为卷积层,有 6 个 5*5 的卷积核,原始图像送入卷积层,因此生成了6 个(32-5+1) x(32-5+1) =28x28 的 feature map, 这一层需要训练的参数为(5x5+1)原创 2020-08-03 20:36:42 · 1549 阅读 · 0 评论 -
Proximal Policy Optimization (PPO)
目录Policy Gradient术语和基本思想Policy Gradient从on-policy到off-policy (反复多次使用经验)术语和基本思想PPO / TRPOPPO2:Policy Gradient术语和基本思想基本组成: actor (即policy gradient要学习的对象, 是我们可以控制的部分) 环境 environment (给定的,无法控制) 回报函数 reward function (无法控制)Policy...转载 2020-07-24 16:52:47 · 1257 阅读 · 0 评论 -
FLOPs与FLOPS
FLOPS:floating point operations per second的缩写,意指每秒浮点运算次数,理解为计算速度。是一个衡量硬件性能的指标。FLOPs:floating point operations的缩写(s表复数),意指浮点运算数,理解为计算量。可以用来衡量算法/模型的复杂度。假设采用滑动窗实现卷积且忽略非线性计算开销,则卷积核的FLOPs为:其中,、和分别为输入特征图(就是输入图片了)的高度、宽度和通道数,为核宽度,为输出通道数。全连接层网络FLOPs为,其中,为输入维.原创 2020-07-24 14:53:07 · 478 阅读 · 0 评论 -
网络深度对深度学习模型性能的影响
宽度,即通道(channel)的数量。注意这里说的和宽度学习一类的模型没有关系,而是特指深度卷积神经网络的宽度。为什么需要足够的宽度网络更深带来的一个非常大的好处,就是逐层的抽象,不断精炼提取知识。如下图第一层学习到了边缘,第二层学习到了简单的形状,第三层开始学习到了目标的形状,更深的网络层能学习到更加复杂的表达。如果只有一层,那就意味着要学习的变换非常的复杂,这很难做到。而宽度就起到了另外一个作用,那就是让每一层学习到更加丰富的特征,比如不同方向,不同频率的纹理特征。下面是Alex.转载 2020-07-24 14:28:31 · 1935 阅读 · 0 评论 -
Multi-crop at test time
在测试阶段,使用single crop/multiple crop得到的结果是不一样的[0],相当于将测试图像做数据增强。一些技巧:单纯将测试图像resize到某个尺度(例如256xN),选择其中centor crop(即图像正中间区域,比如224x224),作为CNN的输入,去评估该模型 Multiple Crop的话具体形式有多种,可自行指定,比如:10个crops: 取(左上,左下,右上,右下,正中)以及它们的水平翻转。这10个crops在CNN下的预测输出取平均作为最终预测结果。 14原创 2020-07-22 14:28:00 · 1113 阅读 · 0 评论 -
Depthwise卷积与Pointwise卷积
Depthwise(DW)卷积与Pointwise(PW)卷积,合起来被称作Depthwise Separable Convolution(参见Google的Xception),该结构和常规卷积操作类似,可用来提取特征,但相比于常规卷积操作,其参数量和运算成本较低。所以在一些轻量级网络中会碰到这种结构如MobileNet。常规卷积操作对于一张5×5像素、三通道彩色输入图片(shape为5×5×3)。经过3×3卷积核的卷积层(假设输出通道数为4,则卷积核shape为3×3×3×4),最终输出4个Fea转载 2020-06-14 21:10:31 · 240 阅读 · 0 评论 -
损失函数总结
19种损失函数1 L1范数损失 L1Loss计算 output 和 target 之差的绝对值。torch.nn.L1Loss(reduction='mean')参数:reduction-三个值,none: 不使用约简;mean:返回loss和的平均值;sum:返回loss的和。默认:mean。2 均方误差损失 MSELoss计算 output 和 target 之差的均方差。torch.nn.MSELoss(reduction='mean')参数:...转载 2020-06-14 11:08:09 · 635 阅读 · 0 评论 -
深度学习优化函数详解-- Nesterov accelerated gradient (NAG)
动量法每下降一步都是由前面下降方向的一个累积和当前点的梯度方向组合而成。于是一位大神(Nesterov)就开始思考,既然每一步都要将两个梯度方向(历史梯度、当前梯度)做一个合并再下降,那为什么不先按照历史梯度往前走那么一小步,按照前面一小步位置的“超前梯度”来做梯度合并呢?如此一来,小球就可以先不管三七二十一先往前走一步,在靠前一点的位置看到梯度,然后按照那个位置再来修正这一步的梯度方向。如此一来,有了超前的眼光,小球就会更加”聪明“, 这种方法被命名为Nesterov accelerated gradie转载 2020-06-13 22:59:36 · 2824 阅读 · 0 评论 -
理解Batch Normalization(批量归一化)
https://www.cnblogs.com/shine-lee/p/11989612.html写的非常详细,转载一下以作学习。原创 2020-06-13 22:10:47 · 1627 阅读 · 0 评论 -
理解:L1正则先验分布是Laplace分布,L2正则先验分布是Gaussian分布
L1、L2正则化来源推导L1L2的推导可以从两个角度: 带约束条件的优化求解(拉格朗日乘子法) 贝叶斯学派的:最大后验概率1.1 基于约束条件的最优化对于模型权重系数w的求解释通过最小化目标函数实现的,也就是求解:首先,模型的复杂度可以用VC来衡量。通常情况下,模型VC维与系数w的个数成线性关系:即:w数量越多,VC越大,模型越复杂为了限制模型的复杂度,我们要降低VC,自然的思路就是降低w的数量,即:让w向量中的一些元素为0或者说限制w中非零元素的个数。我们...转载 2020-06-13 21:13:21 · 1161 阅读 · 0 评论 -
消融实验
有一点像控制变量的感觉。因为作者提出了一种方案,同时改变了多个条件/参数,他在接下去的消融实验中,会一一控制一个条件/参数不变,来看看结果,到底是哪个条件/参数对结果的影响更大。下面这段话摘自知乎,@人民艺术家:你朋友说你今天的样子很帅,你想知道发型、上衣和裤子分别起了多大的作用,于是你换了几个发型,你朋友说还是挺帅的,你又换了件上衣,你朋友说不帅了,看来这件衣服还挺重要的。...转载 2020-06-11 22:31:28 · 647 阅读 · 0 评论 -
自动微分(Automatic Differentiation)
https://blog.csdn.net/aws3217150/article/details/70214422转载 2020-06-07 17:06:45 · 277 阅读 · 0 评论