深度学习
liuy9803
这个作者很懒,什么都没留下…
展开
-
深度学习之神经网络概述、BP算法
深度学习是由机器学习的神经网络发展而来的一个新的领域,模仿人脑的机制来解释数据(图像、声音和文本),结构是含多隐层的多层感知器。深度学习可以用无监督或半监督的特征学习和分层特征提取算法来高效地替代手工获取特征,通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。 一、神经元人的大脑是由大约个神经元(neuron)相互连接组成的密集网络,平均每一个神经元与其...原创 2018-08-01 09:35:11 · 3003 阅读 · 0 评论 -
深度学习典型神经网络之ResNet
深度残差网络ResNet是2015年ILSVRC的冠军,深度达152层,是VGG的8倍,top-5错误率为3.6%。ResNet的出现使上百甚至上千层的神经网络的训练成为可能,且训练的效果也很好,利用ResNet强大的表征能力,使得图像分类、计算机视觉(如物体检测和面部识别)的性能都得到了极大的提升。一、残差学习根据无限逼近定理(Universal Approximation The...原创 2018-08-30 15:16:21 · 4266 阅读 · 0 评论 -
深度学习之长短期记忆网络LSTM
LSTM(Long Short-Term Memory networks)是一种时间递归神经网络,是RNN的改进之一,解决了RNN不易处理的远距离信息上下文依赖、梯度消失或梯度爆炸等问题。LSTM的结构类似RNN,区别在于将传统神经元用记忆单元代替,这个单元由遗忘门、输入门和输出门组成,根据规则判断信息期限,长期记忆信息可以传到很深的层,短期记忆信息将很快被遗忘。所有的递归神经网络都...原创 2018-09-05 15:07:43 · 5148 阅读 · 2 评论 -
深度学习之生成式对抗网络GAN
一、GAN介绍生成式对抗网络GAN(Generative Adversarial Networks)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块:生成模型(Generative model)和判别模型(Discriminative model)的相互博弈学习产生相当好的输出。原始GAN理论中并不要求G和D都是神经网络,只需要是能够拟合...原创 2018-09-11 10:31:24 · 2999 阅读 · 1 评论 -
深度学习目标检测之YOLO系列
近年来目标检测流行的算法主要分为两类:1、R-CNN系列的two-stage算法(R-CNN、Fast R-CNN、Faster R-CNN),需要先使用启发式方法selective search或者CNN网络RPN产生候选区域,然后在候选区域上进行分类和回归,准确度高但速度慢。2、YOLO,SSD这类one-stage算法,仅仅使用一个CNN网络直接预测不同目标的类别和位置,速度快但准确性要低一...原创 2018-10-12 12:34:28 · 3307 阅读 · 0 评论 -
深度学习目标检测之RCNN、SPP-net、Fast RCNN、Faster RCNN
一、目标检测介绍目标检测(目标提取)是一种基于目标几何和统计特征的图像分割,将目标的分割和识别合二为一,主要是明确从图中看到了什么物体、它们分别在什么位置。传统的目标检测方法一般分为三个阶段:首先在给定的图像上选择一些候选区域,然后对这些区域提取特征,最后使用分类器进行分类。1、区域选择传统的目标定位方法是穷举法,由于目标可能在图片的任意位置且大小不定,因此需要使用不同长宽的滑动窗口对...原创 2018-10-03 00:30:13 · 871 阅读 · 0 评论 -
深度学习之目标检测SSD
SSD(Single Shot MultiBox Detector)将边界框的输出空间离散为不同层特征图上的一组不同尺寸和长宽比的默认框。SSD discretizes the output space of bounding boxes into a set of default boxes over different aspect ratios and scales per feature ...原创 2018-10-23 23:27:59 · 1772 阅读 · 0 评论 -
深度学习之词向量
一、词向量自上世纪90年代开始,特征空间模型就应用于分布式语言理解中,在当时许多模型用连续性的表征来表示词语,包括潜在语义分析LSA、隐含狄利克雷分布LDA主题模型。Bengio et al.在2003年首先提出了词向量的概念,当时是将其与语言模型的参数一并训练得到的。Collobert和Weston则第一次正式使用预训练的词向量,不仅将词向量方法作为处理下游任务的有效工具,还引入了神经网络模...原创 2019-02-04 15:05:38 · 9990 阅读 · 0 评论 -
从Seq2Seq,Attention,Transformer到ELMo,BERT,GPT-2(一)
一图了解从 Seq2Seq,Attention,Transformer 到 ELMo,BERT,GPT-2 的发展过程。一、Seq2SeqSeq2Seq全称Sequence to Sequence,结构为RNN Encoder-Decoder,Encoder将变长源序列映射为定长向量,Decoder将该向量映射回变长目标序列。论文《Learning Phrase Represen...原创 2019-03-01 12:03:46 · 4365 阅读 · 0 评论 -
深度学习典型卷积神经网络之GoogLeNet
GoogLeNet是2014年ILSVRC的冠军,top5错误率为6.7%,深度达到22层(加上池化是27层),使用9个inception模块让网络变得更“宽”,改变CNN原有的串行结构;使用全局平均池化替代FC层,但实际上在最后还是加了一个全连接层,便于以后进行微调。总参数量仅为AlexNet(6000万)的1/12(500万);GoogLeNet的结构如下所示,其中绿色框内的是stem,包含一...原创 2018-08-29 01:07:16 · 1780 阅读 · 0 评论 -
深度学习之卷积神经网络CNN(二)训练方法
CNN的训练和DNN类似,使用前向传播得到预测值后,再用反向传播算法链式求导,计算损失函数对每个权重的偏导数,然后使用梯度下降法对权重进行更新。 一、参数初始化神经网络的收敛结果很大程度取决于参数的初始化,理想的参数初始化方案使得模型训练事半功倍,不好的初始化方案不仅会影响网络收敛效果,甚至会导致梯度弥散或梯度爆炸。注意参数不能全部初始化为0,这是因为在反向传播时梯度值相同,...原创 2018-08-24 21:47:51 · 20283 阅读 · 4 评论 -
深度学习之常用激活函数
激活函数(Activation Function)一般用于神经网络的层与层之间,将上一层的输出转换之后输入到下一层。如果没有激活函数引入的非线性特性,那么神经网络就只相当于原始感知机的矩阵相乘。 一、激活函数的性质非线性:当激活函数为非线性的时候,可以证明两层的神经网络可以逼近任意复杂的函数。连续可微:由于神经网络的训练是基于梯度的优化方法,数学基础是连续可微,因此选取的激活...原创 2018-08-10 10:03:56 · 7718 阅读 · 1 评论 -
深度学习之过拟合问题(二)
一、正则化方法正则化方法的基本思想是,通过加入一个含有解的先验知识的约束来控制函数的光滑性,即为损失函数添加正则项来限制参数权值过大weight decay、降低模型复杂度,正则化方法主要有L1-norm、L2-norm两种方式:1、L1-norm在参数w较小时能够直接缩减至0,相当于参数服从拉普拉斯先验分布,这种方法倾向于产生少量的特征,降低模型的复杂度,增加网络稀疏性,因此可以防...原创 2018-08-14 22:13:30 · 2103 阅读 · 0 评论 -
深度学习之过拟合问题(一)
一般可以通过增加神经元数目、加深网络层次来提升神经网络的学习能力,使其学到的模型更加符合实际数据的分布情况。但要注意神经网络模型不能过于复杂,要注意避免训练效率下降以及过拟合等问题。产生过拟合的根本原因在于:(1)观测值与真实值之间的误差: 训练样本=真实值+随机误差,学习时尽可能地拟合了训练样本,而不是真实值,即学到了真实规律以外的随机误差。(2)数据太少,无法反映真实分...原创 2018-08-12 22:39:04 · 6284 阅读 · 1 评论 -
深度学习之径向基函数神经网络RBFNN
径向基函数(Radial Basis Function)神经网络是具有唯一最佳逼近(克服局部极小值问题)、训练简洁、学习收敛速度快等良好性能的前馈型神经网络,目前已证明RBFNN能够以任意精度逼近任意连续的非线性网络,被广泛用于函数逼近、语音识别、模式识别、图像处理、自动控制和故障诊断等领域。全局逼近网络:网络的一个或多个权值对任一输出都有影响。由于每次输入都要对所有权值进行修正,因此这...原创 2018-08-08 16:54:40 · 30729 阅读 · 2 评论 -
深度学习之卷积神经网络CNN(一)网络结构
卷积神经网络(Convolutional Neural Networks)是一种深度前馈神经网络,基于视觉神经感受野的理论而提出,已成功应用于图像识别、语音识别、运动分析、自然语言处理等领域。CNN的核心思想是:将局部感受野、权值共享以及时间或空间亚采样这三种结构思想结合起来,获得了某种程度的位移、尺度、形状的不变性。与传统DNN的区别在于,CNN包含由卷积层和子采样层构成的特征提取器,能够通过加...原创 2018-08-22 12:22:11 · 8372 阅读 · 1 评论 -
深度学习之梯度下降优化算法
一、梯度下降的变种算法1、BGD批量梯度下降法更新一次参数需要计算整个数据集所有样本的梯度,因此更新速度非常慢,对于凸优化问题会收敛到全局最优点、而非凸优化问题则会收敛到局部最优点,这种方法有可能无法将大量的数据放入内存,也不能进行在线学习。 2、SGD随机梯度下降法更新一次参数只需计算一个样本的梯度,更新速度很快、参数方差波动大,适用于在线学习,有可...原创 2018-08-20 11:38:14 · 6610 阅读 · 1 评论 -
深度学习之RNN
递归神经网络RNN(也称循环神经网络)是一种节点沿着序列连接形成有向图的网络,显示时间序列的temporal dynamic behavior。与前馈神经网络不同之处在于,RNN可以使用其内部状态(记忆)来处理输入序列,递归/周期性的recurrent是指其每一个节点都执行相同的任务,但是输出依赖于输入和记忆,RNN适用于连续的手写识别、语音识别、机器翻译等任务。一、RNN的结构 ...原创 2018-09-02 23:51:26 · 1605 阅读 · 0 评论 -
深度学习之典型卷积神经网络——LeNet5、AlexNet、ZFNet、VGG
通常只统计具有权重和参数的层,即将一个卷积层+一个池化层算作一个层layer 1,因为池化层没有权重参数,只有一些超参数(filter_size、stride)。也有将卷积层和池化层各自算为一层的情况。一、LeNet-51998年由Yann LeCun提出,用于数字识别的CNN。该模型一共有7层(不含INPUT),结构如下:(1)卷积层C16个5*5的卷积核,不使用paddin...原创 2018-08-28 12:05:46 · 1883 阅读 · 0 评论 -
从Seq2Seq,Attention,Transformer到ELMo,BERT,GPT-2(二)
五、ELMo论文《Deep contextualized word representations》认为,高质量的词表征应该包含丰富的句法和语义信息,并且能够对多义词进行建模(传统的词向量如word2vec是上下文无关的)。ELMo 分为两个阶段:在大型语料库上预训练一个深度双向语言模型 biLM,然后将LM各层作为新特征补充到下游任务中。这个LM是预训练过的双向耦合 coupled LSTM...原创 2019-03-11 17:59:54 · 2208 阅读 · 0 评论