理论知识学习
文章平均质量分 93
理论知识学习
呆呆象呆呆
这个作者很懒,什么都没留下…
展开
-
【GPU结构与CUDA系列4】GPU存储资源:寄存器,本地内存,共享内存,缓存,显存等存储器细节
0 软件抽象和硬件结构对应关系的例子把GPU跟一个学校对应起来,学校里有教学楼、操场、食堂,还有老师和学生们;很快有领导(CPU)来检查卫生(需要执行的任务Host程序),因此这个学校的学生们要完成打扫除的工作(Device程序)。软件抽象资源包括Thread、Warp、Block和Grid硬件资源包括SP和SM0.1 软件抽象Grid对应的是年级是抽象的划分组织方式根据年级划分任务,Grid可以分为多个不同的班级Block对应的是班级是抽象的划分组织方式每个班级有若干的同学(线程原创 2021-08-17 20:33:57 · 8396 阅读 · 6 评论 -
【GPU结构与CUDA系列3】GPU软件抽象:Grid,Block,Thread,Warp定义说明与硬件的映射执行细节
1 GPU运行机制总述市面上有很多GPU厂家,他们产品的架构各不相同,但是核心往往差不多,整明白了一个基本上就可以触类旁通了。1.0 GPU计算流程(CPU协同GPU计算)一个典型的计算流程是这样的:数据从CPU的内存拷贝到GPU的内存CPU把计算指令传送给GPUGPU把计算任务分配到各个CUDA core并行处理计算结果写到GPU内存里, 再拷贝到CPU内存里.1.1 Host与Device一个CUDA程序的可以分为两个部分(两者拥有各自的存储器):在CPU上运行的称为Host程原创 2021-08-17 16:57:16 · 8804 阅读 · 5 评论 -
【GPU结构与CUDA系列2】GPU硬件结构及架构分析:流多处理器SM,流处理器SP,示例架构分析
1 GPU架构的发展架构名发布年份显卡名称每个SM中SP的数量Tesla2008Fermi2010GTX400 GTX500GF100:32;GF10X:48Kepler2012GTX600 GTX700192Maxwell2014GTX800 GTX900 Jetson-Nano128Pascal2016GP100 GTX1000 MX150 MX250 Jetson-TX2Volta2017GV100 Tesla原创 2021-08-17 15:20:28 · 10459 阅读 · 0 评论 -
【GPU结构与CUDA系列1】GPU与CPU比较:GPU介绍、设计差异、计算流程
1 GPU的介绍1.1 CPU到GPUCPU是人们熟知的,它具有高速的内部寄存器和高速缓冲器(Cache),现代CPU又加入了多级流水线,猜测、乱序执行,超线程等技术,加速其指令吞吐能力,具有快速的响应能力,但是对于大量数据的处理却相对还是不够用。举个例子:要做的事情简单概括一下,就是通过对数据进行相应的计算,把数据转换成一个又一个图片上的像素,然后将这张图片显示在屏幕上。整个流程中的计算并不复杂,但是数量大,且计算流程重复,如果全盘交给CPU的话会给其造成很大的性能负担。1.2 GPU的概述原创 2021-08-17 14:11:46 · 3357 阅读 · 0 评论 -
【GPU结构与CUDA系列0】背景知识:GFLOPS,带宽,延迟和吞吐量,乱序执行,上下文切换,指令集体系结构
1 GFLOPSGiga Floating-point Operations Per Second即10亿次每秒的浮点运算数,常作为GPU性能参数,但不一定代表GPU的实际表现,因为还要考虑具体如何拆分多边形和像素以及纹理填充,理论上该数值越高越好。1GFlops = 1,000MFlops。2 Bandwidth 带宽带宽应用的领域非常多,可以用来标识信号传输的数据传输能力、标识单位时间内通过链路的数据量、标识显示器的显示能力。在模拟信号系统又叫频宽,是指在固定的时间可传输的资料数量,亦即在原创 2021-08-17 11:04:39 · 3951 阅读 · 0 评论 -
深度学习中的Benchmark,Baseline,Backbone和SOTA的比较说明举例分析
1 Benchmark1.1 中英文直译基准;水准点;衡量尺度A benchmark is something whose quality or quantity is known and which can therefore be used as a standard with which other things can be compared.1.2 解释说明举例是一种标准、规则,不一定是最好的,但一定是最有代表性的,已经被广泛研究且被广泛认可的,对它性能的表现形式、测量方法都非常原创 2021-08-17 10:49:07 · 8198 阅读 · 1 评论 -
【压缩感知合集9】压缩感知的OMP算法(算法步骤分析、举例分析、说明总结和缺陷)
0 前情提要0.1 数学模型和总体框图如下给定输入信号X∈RN×1\boldsymbol{X} \in \mathbb{R}^{N\times1}X∈RN×1,最终想要得到压缩信号A∈RM×1\boldsymbol{A} \in \mathbb{R}^{M\times1}A∈RM×1,K<<NK<<NK<<N0.2 压缩过程图例分析如下整个压缩过程也可以被称为感知过程A=ΦX=ΦΨY=ΘY\boldsymbol{A} =\boldsymbol{\Phi}\b原创 2021-07-25 17:25:13 · 21288 阅读 · 19 评论 -
【压缩感知合集8】MP算法(算法实现、收敛讨论以及问题分析)
0 前情提要0.1 数学模型和总体框图如下给定输入信号X∈RN×1\boldsymbol{X} \in \mathbb{R}^{N\times1}X∈RN×1,最终想要得到压缩信号A∈RM×1\boldsymbol{A} \in \mathbb{R}^{M\times1}A∈RM×1,K<<NK<<NK<<N0.2 压缩过程图例分析如下整个压缩过程也可以被称为感知过程A=ΦX=ΦΨY=ΘY\boldsymbol{A} =\boldsymbol{\Phi}\b原创 2021-07-24 21:35:50 · 5375 阅读 · 3 评论 -
【压缩感知合集7】压缩感知RIP有限等距性:定义解析,理解说明,数学原理推导
有限等距性质RIP的理解 - 知乎压缩感知测量矩阵之有限等距性质(Restricted Isometry Property, RIP)_彬彬有礼的专栏-CSDN博客约束等距性 | 机器之心0 前情提要0.1 数学模型和总体框图如下给定输入信号X∈RN×1\boldsymbol{X} \in \mathbb{R}^{N\times1}X∈RN×1,最终想要得到压缩信号A∈RM×1\boldsymbol{A} \in \mathbb{R}^{M\times1}A∈RM×1,K<<NK<原创 2021-07-14 20:08:52 · 7435 阅读 · 3 评论 -
【压缩感知合集6】压缩感知为什么可以恢复信号;为什么需要满足稀疏性条件、RIP条件、矩阵不相关等限制条件才可以恢复信号的逻辑分析
0 压缩感知的理论依据前言主要想讲清楚的问题是:为什么压缩感知在随机采样的情况下可以对信号进行恢复?其实这个问题也可以换一个方式理解:在满足什么条件的情况下,信号可以通过压缩感知进行压缩并恢复?注意与说明:为了方便理解,在此篇内容中我们假设稀疏域是傅里叶变换,下面的图也都是用傅里叶频谱图画的,实际使用中只要找到符合要求的系数域即可。1 要求1:稀疏关于感兴趣的信号,压缩感知在压缩过程(也就是感知过程中)所表达的意思为:连续时间信号的信息率可能比根据其带宽所建议的小得多,离散时间信号所原创 2021-07-11 20:59:09 · 8815 阅读 · 2 评论 -
【压缩感知合集5】压缩感知简介和数学模型分析
1 压缩感知的简介1.1 提出D. Donoho、E. Candes 及华裔科学家 T. Tao等人提出了一种新的信息获取理论 - 压缩感知(Compressive Sensing)Donoho D L. Compressed sensing[J] . IEEE Transactions on Information Theory, 2006, 52( 4) : 1289 - 13061.2 评价突破了香农-奈奎斯特采样定理的限制。实现对信号采样的同时完成压缩的过程。并不直接测量信号本身原创 2021-07-11 11:21:11 · 5083 阅读 · 2 评论 -
【压缩感知合集4】理想采样信号和随机采样信号两种采样信号的频谱分析,以及采样效果比较
主要目标研究一下理想采样信号和随机采样信号两种采样信号的频谱,以及一些关联说明环境假设参数如下:采样信号的时域总共点数:1024针对所需要研究的两种信号(理想采样信号和随机采样信号)的采样频率:1KHz两种信号的抽样频率针对理想采样信号假设当这个抽样频率为10Hz时,一秒钟会有十个脉冲信号,且等间距分布,也即为这理想信号频谱的最高频上限ωm\omega_mωm针对随机采样信号假设当这个抽样频率为10Hz时,为了方便比较一秒钟也设置相同数量的脉冲信号,间距随机,脉冲之间最小间隔可以到1原创 2021-07-10 22:26:09 · 7468 阅读 · 2 评论 -
【压缩感知合集3】压缩感知的背景与意义
1 压缩感知的背景大约有70%的信息是通过人眼获得的视频和图像信息视频图像信息是人类最重要的获取信息的方式。视频图像信息丰富数据量大信号采样传输存储有巨大的压力在数据的存储和传输方面, 传统的做法是先按照奈奎斯特采样获取数据, 然后将获得的数据进行压缩, 最后将压缩后的数据进行存储或传输。显然, 这样的方式造成很大程度的资源浪费人们对信息的获取有两方面的需求信息质量高,信息数量大(帧率高,像素清晰)信息传输速度快2 压缩感知的意义2.1 意义最重要的价值实现降低采样率,同时原创 2021-07-09 23:07:45 · 3368 阅读 · 0 评论 -
【压缩感知合集2】(背景知识)信号稀疏表示的数学推导和解释理解
信号稀疏表示(信号的稀疏性或可压缩性)信号稀疏与可压缩的数学定义(以一维信号为例)信号都可以用正交基向量进行线性表示,假设这些基向量都是规范化后的正交向量。(使用基向量进行线性表示的时候是否规范化只是影响表示的系数。)一维信号向量X=[x1,x2,⋯ ,xn]∈RN×1\boldsymbol{X} = [x_1,x_2,\cdots,x_n] \in \mathbb{R}^{N\times 1}X=[x1,x2,⋯,xn]∈RN×1,可以用正交基向量线性表示公式如下。X=∑k=1Nψkyk=Ψ原创 2021-07-09 23:03:11 · 3587 阅读 · 0 评论 -
【压缩感知合集1】(背景知识)香农奈奎斯特采样定理的数学推导和图解分析
香农奈奎斯特采样定理1 评价支配先阶段几乎所有信号的获取、处理、存储、传输过程。采样后再进行压缩的方式浪费了大量的采样资源, 如果采样后的信号长度仍然很长, 那么变换会消耗很长时间。由于需要保留的KKK个重要分量的位置是随着信号的不同而不同,所以这种编解码方式是自适应的,需要分配多余的存储空间以保留KKK个重要分量的位置。KKK个重要分量有可能在传输过程中丢失其中的某几个分量从而造成较差的抗干扰能力。2 数学解释傅里叶分析示意图数学模型证明输入连续信号xa(t)x_a原创 2021-07-09 22:49:31 · 4456 阅读 · 3 评论 -
【Transformer系列2】Transformer结构位置编码的详细解析1(相对位置关系的推导证明与个人理解)
1、Attention is all you need 中的位置编码1.1 部分论文解释截图中文翻译为位置编码(后面用PE代替)。这个操作,直观上非常容易理解,就是对序列中的词的位置进行编码。但是,原文并没有对这种新颖的位置编码方式作细致的讲解。对很多人来说,依然一头雾水。因此,本博客旨在让大家真正理解位置编码的原理。1.2 在公式形成中的考量1.2.1 引入PE的意义对于任何一门语言,单词在句子中的位置以及排列顺序是非常重要的,它们不仅是一个句子的语法结构的组成部分,更是表达语义的重要概念。一原创 2021-05-29 16:12:01 · 3153 阅读 · 1 评论 -
【Transformer系列1】Attention is all you need解析、Transformer结构总览
0、Attention Is All You Need2017NIPS Google1、背景Attention机制最早在视觉领域提出,2014年Google Mind发表了《Recurrent Models of Visual Attention》,使Attention机制流行起来,这篇论文采用了RNN模型,并加入了Attention机制来进行图像的分类。2015年,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Ali原创 2021-05-29 15:54:36 · 1696 阅读 · 0 评论 -
【理论知识学习33】深度学习机器学习中的白化 VS PCA
DL四(预处理:主成分分析与白化 Preprocessing PCA and Whitening ) - robert_ai - 博客园深度学习之8——数据预处理 - 知乎深度学习中的白化预处理_Sirius_0的博客-CSDN博客白化(Whitening):PCA vs. ZCA - Lee的白板报的个人空间 - OSCHINA - 中文开源技术交流社区白化(预处理步骤)【转】 - osc_f1tgjw6d的个人空间 - OSCHINA - 中文开源技术交流社区[转载]什么是白化(whiteni原创 2021-04-27 16:41:14 · 1924 阅读 · 1 评论 -
【理论知识学习32】归纳偏差与选择性偏差(概念作用以及举例说明)
一、inductive bias 归纳偏置1.1 背景与概念介绍No-Free-Lunch (不存在免费午餐理论)提出没有先验知识进行学习是不可能的。如果我们不对特征空间有先验假设,则所有算法的平均表现是一样的。通常情况下,我们不知道具体上帝函数的情况,但我们猜测它类似于一个比较具体的函数。这种基于先验知识对目标模型的判断就是归纳偏置(inductive bias)。归纳偏置所做的事情,是将无限可能的目标函数约束在一个有限的假设类别之中,这样,模型的学习才成为可能。其实,贝叶斯学习中的“先验(Prio原创 2021-04-20 10:53:04 · 5349 阅读 · 0 评论 -
YUV与RGB编码
文章目录一、编码介绍1.1 RGB 颜色编码1.2 YUV 颜色编码二、RGB 与 YUV 的互相转换三、采样3.1 YUV 采样格式3.1 YUV 4:4:4 采样3.2 YUV 4:2:2 采样3.3 YUV 4:2:0 采样四、YUV 存储格式4.1 基于 YUV 4:2:2 采样的格式4.1.1 YUYV 格式4.1.2 UYVY 格式4.1.3 YUV 422P 格式4.2 基于 YUV...原创 2019-08-29 21:54:52 · 12612 阅读 · 0 评论 -
Separable Convolution 原理讲解及计算量和参数量比较分析
卷积神经网络中的Separable Convolution0、前言移动端设备的硬件性能限制了神经网络的规模。本文介绍一种被称为Separable Convolution的卷积运算方式。它将传统卷积分解为Depthwise Convolution与Pointwise Convolution两部分,有效的减小了参数数量。卷积神经网络在图像处理中的地位已然毋庸置疑。卷积运算具备强大的特征提取能力、相比全连接又消耗更少的参数,应用在图像这样的二维结构数据中有着先天优势。然而受限于目前移动端设备硬件条件,显著降原创 2021-01-19 16:01:25 · 2021 阅读 · 0 评论 -
Attention学习系列(1):人脑与视觉中的注意力机制
注意力的定义描述注意力是一个心理学概念,属于认知过程的一部分,是一种导致局部刺激的意识水平提高的知觉的选择性的集中。在与人类意识有关的许多认知过程(决策、记忆、情绪等)中,注意被认为是最具体的,由于它与知觉的关系非常密切。注意力是在突触水平上进行操作,提高对输入信号的敏感性,并锐化这些信号的精确度,选择性地提高吸引注意力信息的传输,同时降低噪音水平,或干扰注意力信息的传输。注意力能通过选择性改变突触的“权重”,强化所有包括噪音在内感觉输入的感官特征,从而重塑神经感觉。注意力是一个用来分配有限的信息处理原创 2020-12-19 16:29:39 · 7929 阅读 · 1 评论 -
深度学习机器学习理论知识:范数、稀疏与过拟合合集(6)过拟合的成因、判断、常用八种解决措施
1、过拟合的判断有一个概念需要先说明,在机器学习、深度学习算法中,我们常常将原始数据集分为三部分:training data、validation data,testing data。这个validation data是什么?它其实就是用来避免过拟合的,在训练过程中,我们通常用它来确定一些超参数,比如根据validation data上的accuracy来确定什么样的参数最好最有效果。那为啥不直接在testing data上做这些呢?因为如果在testing data做这些,那么随着训练的进行,我们的网络原创 2021-01-28 11:06:02 · 1842 阅读 · 0 评论 -
深度学习机器学习理论知识:范数、稀疏与过拟合合集(5)Dropout原理,操作实现,为什么可以缓解过拟合,使用中的技巧
1、背景介绍:分布式特征表达分布式表征(Distributed Representation),是人工神经网络研究的一个核心思想。简单来说,就是当我们表达一个概念时,神经元和概念之间不是一对一对应映射(map)存储的,它们之间的关系是多对多。具体而言,就是一个概念可以用多个神经元共同定义表达,同时一个神经元也可以参与多个不同概念的表达,只不过所占的权重不同罢了。举例,对于“小红汽车”这个概念,如果用分布式特征地表达,那么就可能是一个神经元代表大小(形状:小),一个神经元代表颜色(颜色:红),还有一个神经原创 2021-01-27 22:25:39 · 1921 阅读 · 0 评论 -
深度学习机器学习理论知识:范数、稀疏与过拟合合集(4)L2范数对condition number较差情况的缓解
优化有两大难题一是:局部最小值我们的目标是找到全局最小值,如果局部最小值太多,那我们的优化算法就很容易陷入局部最小而不能自拔,这很明显不是观众愿意看到的剧情。二是:ill-condition病态问题解释一下ill-condition。ill-condition对应的是well-condition。那他们分别代表什么?假设我们有个方程组AX=bAX=bAX=b,我们需要求解XXX。如果AAA或者bbb稍微的改变,会使得XXX的解发生很大的改变,那么这个方程组系统就是ill-condition的,反之原创 2021-01-26 22:25:27 · 1483 阅读 · 0 评论 -
深度学习机器学习理论知识:范数、稀疏与过拟合合集(3)范数与稀疏化的原理、L0L1L2范数的比较以及数学分析
1、参数稀疏的好处1.0 为什么参数值越小代表模型越简单因为越复杂的模型,越会对所有的样本进行拟合,甚至包括一些异常样本点,这就容易造成在较小的区间里预测值产生较大的波动,这种较大的波动也反映了在这个区间里的导数很大,而只有较大的参数值才能产生较大的导数。因此复杂的模型,其参数值会比较大。1.1 特征选择(Feature Selection):正则化所带来的稀疏有个很重要的好处在于它能实现特征的自动选择。一般来说,输入xix_ixi的大部分元素(也就是特征)都是和最终的输出yiy_iyi没有关原创 2021-01-26 22:17:46 · 3316 阅读 · 0 评论 -
深度学习机器学习理论知识:范数、稀疏与过拟合合集(2)有监督模型下的过拟合与正则化加入后缓解过拟合的原理
1、监督学习的基本模型监督机器学习问题就是“minimize your error while regularizing your parameters”,也就是在正则数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,而正则化参数是防止我们的模型过分拟合我们的训练数据。因为参数太多,会导致我们的模型复杂度上升,容易过拟合,也就是我们的训练误差会很小。但训练误差小并不是我们的最终目标,我们的目标是希望模型的测试误差小,也就是能准确的预测新的样本。2、审视正则化的角度2.1 角度一我们原创 2021-01-26 22:15:26 · 1897 阅读 · 0 评论 -
深度学习机器学习理论知识:范数、稀疏与过拟合合集(1)范数的定义与常用范数介绍
1、范数简介范数是具有“长度”概念的函数。在向量空间内,为所有的向量的赋予非零的增长度或者大小。不同的范数,所求的向量的长度或者大小是不同的。1.1 范数分类向量范数矩阵范数:1.2 向量范数的定义假设有一个函数ffffff完成的映射为Rn→R\mathbb{R}^n\rightarrow \mathbb{R}Rn→R非负性:对于∀x∈Rn\forall \boldsymbol{x} \in \mathbb{R}^{n}∀x∈Rn,满足f(x)≥0f(\boldsymbol{x})原创 2021-01-26 22:10:44 · 2073 阅读 · 0 评论 -
BN层的学习(意义、效果、训练测试的区别、数学公式推导、反向传播公式解释证明)
一、背景意义2015年在深度学习领域,有一篇非常值得学习的一篇文献:《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》。BN算法目前已经被大量的应用,最新的文献算法很多都会引用这个算法,进行网络训练,可见其强大之处。背景主要概括成如下几个方面:随机梯度下降是现在深度网络训练的主流方法(此方法是高效的)随机梯度下降需要人为设置大量参数,比如学习率、参数初始化原创 2021-01-16 23:06:46 · 5770 阅读 · 8 评论 -
通用近似定理(学习笔记)
通用近似定理(学习笔记)-----用任意深度的神经网络逼近函数,张玉宏的《深度学习之美》阅读笔记.发展历程“通用近似定理”1989年被提出[1],其中George Cybenko 最早提出并证明了这一定理,但是仅仅是在激活函数为 Sigmoid 函数时的特殊情况。那时,这一定理被看作是 Sigmoid 函数的特殊性质。但两年之后,Kurt Hornik 研究发现,造就通用拟合这一特性的根源并非 Sigmoid 函数,而是多层前馈神经网络这一架构本身。到2006年深度学习开始厚积薄发,但是这期间神经网络原创 2020-12-07 16:48:05 · 11727 阅读 · 0 评论 -
深度学习笔记(十):Attention Model学习笔记一:发展历程原理、优势及系统分类
文章目录一、注意力模型(Attention Model,AM)背景介绍二、注意力机制在神经网络建模中迅速发展的三个主要原因:三、Attention Model(AM)发展引入序列到序列模型Attention Model四、Attention Model(AM)分类基于多输入输出序列分类基于抽象层分类:基于计算位置分类基于多表示分类一、注意力模型(Attention Model,AM)背景介绍近段时间,注意力机制被纳入的不同的神经网络结构,并展示了注意力如何提高神经网络的可解释性。注意力原理可以使用人类生原创 2020-07-27 21:43:18 · 2116 阅读 · 0 评论 -
深度学习笔记(九):LSTM学习笔记(结构解析,从RNN的发展历程,解决梯度爆炸和梯度消失,长短时间记忆的含义)
文章目录零、前置知识一、LSTM目标二、LSTM的结构解析门结构的介绍遗忘门(forget gate)输入门(input gate)输出门(output gate)总结一下前馈结构流程三、LSTM变种四、解决问题的思路(从循环神经网络到LSTM)问题一:解决随时间的流动梯度发生的指数级消失或者爆炸的情况问题二:将信息装入长时记忆单元**论乘法:****论加法:**问题三:频繁装填带来的问题问题四:网络如何输出,决策如何传递问题五:控制门受什么控制总结一下逐步推进到这里的LSTM数学表达五、通过名字的思考进行原创 2020-07-23 16:15:58 · 2975 阅读 · 0 评论 -
深度学习笔记(八):循环神经网络(RNN)的解释说明及其梯度爆炸或消失的tricks
文章目录一、核心思想二、结构三、为什么需要反馈?四、RNN的问题五、解决方法呢?六、总结参考文献一、核心思想区别于普通神经网络,循环神经网络Recurrent neural network (RNN)不仅仅单独的取处理一个个的输入,前一个输入和后一个输入不是完全没有关系的。在某些任务中,需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的。二、结构最简单的循环神经网络由输入层、一个隐藏层和一个输出层组成:Ot=fo(V∗S+bo)St=fs(U∗Xt+W∗St−1+bs)O_t =原创 2020-07-21 08:22:47 · 2351 阅读 · 0 评论 -
深度学习笔记(七):网络宽度(卷积核个数)的一些想法
文章目录一、前言二、网络深度的意义三、宽度的意义四、 网络宽度设计4.1 网络宽度的下限在哪?4.2 网络宽度对模型性能的影响4.3 网络宽度和深度谁更加重要?五、如何加有效地利用宽度?5.1 提高每一层通道的利用率5.2 用其他通道的信息来补偿总结参考文献一、前言网络结构的设计中有几个比较重要的问题:网络的深度(卷积层的个数)网络的宽度(通道的数量,企事业就等价于网络中同层卷积层中卷积核的个数)网络的感受野(卷积核的大小)在一定的程度上,网络越深,感受野越大性能越好。这一次尝试学习一下深度学习原创 2020-07-20 11:02:00 · 7643 阅读 · 2 评论 -
深度学习笔记(六):1x1卷积核的作用归纳和实例分析
文章目录一、1x1卷积核介绍二、举例说明实际作用例子1:线性变换例子2:降低通道数(归纳整理进行一次输入通道间的非线性映射)三、1x1卷积核作用降低/提升通道数增加非线性跨通道信息交互(channal 的变换)四、1x1卷积应用InceptionResNet参考文献待看文献一、1x1卷积核介绍1x1卷积核,又称为网中网(Network in Network)。其实1x1卷积,可以看成一种全连接(full connection)。二、举例说明实际作用例子1:线性变换这里通过一个例子来直观地介绍1x原创 2020-07-16 20:35:51 · 10327 阅读 · 2 评论 -
深度学习笔记(五):深度学习卷积核的计算理解,小卷积核和大卷积核的转换比较
文章目录一、卷积核(convolutional kernel):1.1 介绍1.2 设计中的问题二、池化(pooling):没有完全整理的blog整理完的blog一、卷积核(convolutional kernel):1.1 介绍**目标:**实现对应于输入的局部感知**实现方式:**对输入的某个局部块进行加权求和**理由:**感受野的提出(观察某个物体时我们既不能观察每个像素,也不能一次观察整体,而是先从局部开始认识)**举例:**卷积核的大小一般有1x1,3x3和5x5的尺寸(一般是奇数x奇原创 2020-07-15 19:58:28 · 13703 阅读 · 4 评论 -
深度学习笔记(四):常用优化算法分析比较及使用策略(SGD、SGDM、SGD with Nesterov Acceleration、AdaGrad、AdaDelta、Adam、Nadam)
文章目录一、一个框架回顾优化算法1、SGD算法:评价:2、SGDM (SGD with Momentum)算法:评价:3、SGD with Nesterov Acceleration4、AdaGrad5、AdaDelta / RMSProp6、Adam7、Nadam二、关于Adam的分析1、Adam存在的问题一:可能不收敛2、Adam存在的问题二:可能错过全局最优解3、到底该用Adam还是SGD?...原创 2019-11-03 23:47:45 · 10213 阅读 · 0 评论 -
深度学习笔记(三):激活函数比较分析,可视化,选择(Sigmoid,Tanh,ReLU,Leaky ReLU,PReLU,RReLU,Maxout,Softmax)
文章目录一、简要介绍二、发展历史三、激活函数存在意义四、常见激活函数解析3.0 26种神经网络激活函数可视化3.1 Sigmoid函数( Logistic 函数 )3.2 Tanh3.3 ReLU( Rectified Linear Unit )3.4 Leaky ReLU与 Parametric ReLU (PReLU)3.5 RReLU ( Randomized Leaky ReLU )3....原创 2019-11-03 14:29:37 · 9208 阅读 · 0 评论 -
深度学习笔记(二):Normalization(原因、BN、WN、LN、IN、权重数据伸缩不变性)
文章目录1. 为什么需要Normalization1.1 独立同分布与白化1.2 深度学习中的 Internal Covariate Shift1.3 ICS 会导致什么问题?2. Normalization 的通用框架与基本思想3. 主流 Normalization 方法梳理3.0 第一种解释方式3.1 Batch Normalization —— 纵向规范化3.2 Layer Normaliz...原创 2019-10-24 15:01:44 · 8528 阅读 · 2 评论 -
深度学习笔记(一):卷积变种(分组卷积、空洞卷积、深度可分离卷积、可形变卷积) 卷积中的不一样的操作
文章目录分组卷积(Group Convolution)原理用途常规卷积(Convolution)空洞(扩张)卷积(Dilated/Atrous Convolution)深度可分离卷积(depthwise separable convolution)标准卷积与深度可分离卷积的不同深度可分离卷积的过程深度可分离卷积的优点可变形卷积网络背景想法评价卷积神经网络中十大拍案叫绝的操作一、卷积只能在同一组进行...原创 2019-10-24 14:35:02 · 16435 阅读 · 1 评论