深度学习之词向量

一、词向量 自上世纪90年代开始,特征空间模型就应用于分布式语言理解中,在当时许多模型用连续性的表征来表示词语,包括潜在语义分析LSA、隐含狄利克雷分布LDA主题模型。Bengio et al.在2003年首先提出了词向量的概念,当时是将其与语言模型的参数一并训练得到的。Collobert和We...

2019-02-04 15:05:38

阅读数 141

评论数 0

深度学习之目标检测SSD

SSD(Single Shot MultiBox Detector)将边界框的输出空间离散为不同层特征图上的一组不同尺寸和长宽比的默认框。SSD discretizes the output space of bounding boxes into a set of default boxes o...

2018-10-23 23:27:59

阅读数 126

评论数 0

深度学习目标检测之YOLO系列

近年来目标检测流行的算法主要分为两类:1、R-CNN系列的two-stage算法(R-CNN、Fast R-CNN、Faster R-CNN),需要先使用启发式方法selective search或者CNN网络RPN产生候选区域,然后在候选区域上进行分类和回归,准确度高但速度慢。2、YOLO,SS...

2018-10-12 12:34:28

阅读数 137

评论数 0

深度学习目标检测之RCNN、SPP-net、Fast RCNN、Faster RCNN

一、目标检测介绍 目标检测(目标提取)是一种基于目标几何和统计特征的图像分割,将目标的分割和识别合二为一,主要是明确从图中看到了什么物体、它们分别在什么位置。传统的目标检测方法一般分为三个阶段:首先在给定的图像上选择一些候选区域,然后对这些区域提取特征,最后使用分类器进行分类。 1、区域选择 ...

2018-10-03 00:30:13

阅读数 84

评论数 0

深度学习之生成式对抗网络GAN

  一、GAN介绍 生成式对抗网络GAN(Generative Adversarial Networks)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块:生成模型(Generative model)和判别模型(Discriminative m...

2018-09-11 10:31:24

阅读数 122

评论数 0

深度学习之长短期记忆网络LSTM

  LSTM(Long Short-Term Memory networks)是一种时间递归神经网络,是RNN的改进之一,解决了RNN不易处理的远距离信息上下文依赖、梯度消失或梯度爆炸等问题。LSTM的结构类似RNN,区别在于将传统神经元用记忆单元代替,这个单元由遗忘门、输入门和输出门组成,根据...

2018-09-05 15:07:43

阅读数 105

评论数 0

深度学习之RNN

  递归神经网络RNN(也称循环神经网络)是一种节点沿着序列连接形成有向图的网络,显示时间序列的temporal dynamic behavior。与前馈神经网络不同之处在于,RNN可以使用其内部状态(记忆)来处理输入序列,递归/周期性的recurrent是指其每一个节点都执行相同的任务,但是输...

2018-09-02 23:51:26

阅读数 118

评论数 0

深度学习典型神经网络之ResNet

  深度残差网络ResNet是2015年ILSVRC的冠军,深度达152层,是VGG的8倍,top-5错误率为3.6%。ResNet的出现使上百甚至上千层的神经网络的训练成为可能,且训练的效果也很好,利用ResNet强大的表征能力,使得图像分类、计算机视觉(如物体检测和面部识别)的性能都得到了极...

2018-08-30 15:16:21

阅读数 207

评论数 0

深度学习典型卷积神经网络之GoogLeNet

GoogLeNet是2014年ILSVRC的冠军,top5错误率为6.7%,深度达到22层(加上池化是27层),使用9个inception模块让网络变得更“宽”,改变CNN原有的串行结构;使用全局平均池化替代FC层,但实际上在最后还是加了一个全连接层,便于以后进行微调。总参数量仅为AlexNet(...

2018-08-29 01:07:16

阅读数 148

评论数 0

深度学习之典型卷积神经网络——LeNet5、AlexNet、ZFNet、VGG

通常只统计具有权重和参数的层,即将一个卷积层+一个池化层算作一个层layer 1,因为池化层没有权重参数,只有一些超参数(filter_size、stride)。也有将卷积层和池化层各自算为一层的情况。 一、LeNet-5 1998年由Yann LeCun提出,用于数字识别的CNN。该模型一共...

2018-08-28 12:05:46

阅读数 221

评论数 0

深度学习之卷积神经网络CNN(二)训练方法

  CNN的训练和DNN类似,使用前向传播得到预测值后,再用反向传播算法链式求导,计算损失函数对每个权重的偏导数,然后使用梯度下降法对权重进行更新。   一、参数初始化 神经网络的收敛结果很大程度取决于参数的初始化,理想的参数初始化方案使得模型训练事半功倍,不好的初始化方案不仅会影响网络收...

2018-08-24 21:47:51

阅读数 171

评论数 0

深度学习之卷积神经网络CNN(一)网络结构

卷积神经网络(Convolutional Neural Networks)是一种深度前馈神经网络,基于视觉神经感受野的理论而提出,已成功应用于图像识别、语音识别、运动分析、自然语言处理等领域。CNN的核心思想是:将局部感受野、权值共享以及时间或空间亚采样这三种结构思想结合起来,获得了某种程度的位移...

2018-08-22 12:22:11

阅读数 126

评论数 0

深度学习之梯度下降优化算法

  一、梯度下降的变种算法 1、BGD 批量梯度下降法更新一次参数需要计算整个数据集所有样本的梯度,因此更新速度非常慢,对于凸优化问题会收敛到全局最优点、而非凸优化问题则会收敛到局部最优点,这种方法有可能无法将大量的数据放入内存,也不能进行在线学习。           2、SGD ...

2018-08-20 11:38:14

阅读数 205

评论数 0

深度学习之过拟合问题(二)

  一、正则化方法 正则化方法的基本思想是,通过加入一个含有解的先验知识的约束来控制函数的光滑性,即为损失函数添加正则项来限制参数权值过大weight decay、降低模型复杂度,正则化方法主要有L1-norm、L2-norm两种方式: 1、L1-norm在参数w较小时能够直接缩减至0,相当...

2018-08-14 22:13:30

阅读数 114

评论数 0

深度学习之过拟合问题(一)

  一般可以通过增加神经元数目、加深网络层次来提升神经网络的学习能力,使其学到的模型更加符合实际数据的分布情况。但要注意神经网络模型不能过于复杂,要注意避免训练效率下降以及过拟合等问题。产生过拟合的根本原因在于: (1)观测值与真实值之间的误差:     训练样本=真实值+随机误差,学习时尽...

2018-08-12 22:39:04

阅读数 420

评论数 0

深度学习之常用激活函数

  激活函数(Activation Function)一般用于神经网络的层与层之间,将上一层的输出转换之后输入到下一层。如果没有激活函数引入的非线性特性,那么神经网络就只相当于原始感知机的矩阵相乘。   一、激活函数的性质 非线性:当激活函数为非线性的时候,可以证明两层的神经网络可以逼近任...

2018-08-10 10:03:56

阅读数 289

评论数 0

深度学习之径向基函数神经网络RBFNN

  径向基函数(Radial Basis Function)神经网络是具有唯一最佳逼近(克服局部极小值问题)、训练简洁、学习收敛速度快等良好性能的前馈型神经网络,目前已证明RBFNN能够以任意精度逼近任意连续的非线性网络,被广泛用于函数逼近、语音识别、模式识别、图像处理、自动控制和故障诊断等领域...

2018-08-08 16:54:40

阅读数 1956

评论数 1

深度学习之神经网络概述、BP算法

深度学习是由机器学习的神经网络发展而来的一个新的领域,模仿人脑的机制来解释数据(图像、声音和文本),结构是含多隐层的多层感知器。深度学习可以用无监督或半监督的特征学习和分层特征提取算法来高效地替代手工获取特征,通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。  ...

2018-08-01 09:35:11

阅读数 80

评论数 0

机器学习主题模型之LDA参数求解——Gibbs采样

  LDA参数推导的Gibbs采样方法基于马尔科夫链蒙特卡洛方法,因此首先学习MCMC方法。 一、马尔科夫链蒙特卡洛方法 MCMC(Markov Chain Monte Carlo)方法是构造适合的马尔科夫链,使其平稳分布为待估参数的后验分布,抽样并使用蒙特卡洛方法进行积分计算,实现了抽样分...

2018-07-26 23:26:03

阅读数 762

评论数 1

机器学习主题模型之LDA参数求解——变分推断+EM近似

由上一篇可知LDA主要有两个任务:对现有文集确定LDA模型参数α、η的值;或对一篇新文档,根据模型确定隐变量的分布p(β,z,θ|w,α,η)。由于无法直接求出这个后验分布,因此可以考虑使用Laplace近似、变分近似、MCMC、Gibbs采样法等算法求解。   1、变分推断(variat...

2018-07-22 21:24:00

阅读数 649

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭