深度神经网络综述

神经网络的发展

最早的神经网络的思想起源于1943年的MCP人工神经元模型,当时是希望能够用计算机来模拟人的神经元反应的过程,该模型将神经元简化为了三个过程:输入信号线性加权,求和,非线性激活(阈值法),1969年,美国数学家及人工智能先驱Minsky在其著作中证明了感知器本质上是一种线性模型,只能处理线性分类问题,就连最简单的XOR(亦或)问题都无法正确分类

第一次打破非线性诅咒的当属现代DL大牛Hinton,其在1986年发明了适用于多层感知器(MLP)的BP算法,并采用Sigmoid进行非线性映射,有效解决了非线性分类和学习的问题。该方法引起了神经网络的第二次热潮。在1989年,LeCun发明了卷积神经网络-LeNet,并将其用于数字识别,且取得了较好的成绩。但是在1991年,BP算法被指出存在梯度消失问题,即在误差梯度后向传递的过程中,后层梯度以乘性方式叠加到前层,由于Sigmoid函数的饱和特性,后层梯度本来就小,误差梯度传到前层时几乎为0,因此无法对前层进行有效的学习

2012年,Hinton课题组为了证明深度学习的潜力,首次参加ImageNet图像识别比赛,其通过构建的CNN网络AlexNet一举夺得冠军,且碾压第二名(SVM方法)的分类性能。也正是由于该比赛,CNN吸引到了众多研究者的注意。

AlexNet的创新点:

i 首次采用ReLU激活函数,极大增大收敛速度且从根本上解决了梯度消失问题;由于ReLU方法可以很好抑制梯度消失问题,AlexNet抛弃了“预训练+微调”的方法,完全采用有监督训练。也正因为如此,DL的主流学习方法也因此变为了纯粹的有监督学习;ii扩展了LeNet5结构,添加Dropout层减小过拟合,LRN层增强泛化能力/减小过拟合;iii首次采用GPU对计算进行加速;iv 使用了数据增强

发展中面临的挑战

1986年,决策树方法被提出,很快ID3,ID4,CART等改进的决策树方法相继出现,到目前仍然是非常常用的一种机器学习方法。该方法也是符号学习方法的代表。

1995年,线性SVM被统计学家Vapnik提出。该方法的特点有两个:由非常完美的数学理论推导而来(统计学与凸优化等),符合人的直观感受(最大间隔)。不过,最重要的还是该方法在线性分类的问题上取得了当时最好的成绩。

1997年,AdaBoost被提出,该方法是PAC(Probably Approximately Correct)理论在机器学习实践上的代表,也催生了集成方法这一类。该方法通过一系列的弱分类器集成,达到强分类器的效果。

2000年,KernelSVM被提出,核化的SVM通过一种巧妙的方式将原空间线性不可分的问题,通过Kernel映射成高维空间的线性可分问题,成功解决了非线性分类的问题,且分类效果非常好。至此也更加终结了NN时代。

2001年,随机森林被提出,这是集成方法的另一代表,该方法的理论扎实,比AdaBoost更好的抑制过拟合问题,实际效果也非常不错。

2001年,一种新的统一框架-图模型被提出,该方法试图统一机器学习混乱的方法,如朴素贝叶斯,SVM,隐马尔可夫模型等,为各种学习方法提供一个统一的描述框架。

  1. 深度学习对大数据和数据分析的需求

在深度学习中,数据是最为关键的先决条件,如果数据量不够,经常会导致过拟合的现象,如果脏数据过多,常常会因为数据的错误导致机器学习到错误的信息,因此,在深度学习中,对于数据的获取和数据的前期处理尤为关键,例如在图像识别领域,在imagenet之前图像的训练往往遇到瓶颈问题:数据量不够,常常导致过拟合的现象,而imagenet的出现就完美解决了这个问题,是的之后深度学习在图像领域都有了更快的发展,可以使用imagenet的数据提取特征,然后将得到的特征提取器迁移学习运用到各种实际的分类,分割,检测等任务中,加速了深度学习的发展。

使用在小数据集中,常出现过拟合现象,尽管使用大数据集的预训练模型,总是难以完美拟合验证集,因此,我们需要进行数据增强来进行数据增广,数据增强的方法在alexnet的论文中使用到,常见的图像增广的方式有:

·
旋转| 反射变换(Rotation / reflection):随机旋转图像一定角度; 改变图像内容的朝向;

·
翻转变换(flip):沿着水平或者垂直方向翻转图像;

·
缩放变换(zoom):按照一定的比例放大或者缩小图像;

·
平移变换(shift):在图像平面上对图像以一定方式进行平移;

可以采用随机或人为定义的方式指定平移范围和平移步长,沿水平或竖直方向进行平移。改变图像内容的位置;

·
尺度变换(scale):对图像按照指定的尺度因子,进行放大或缩小; 或者参照SIFT特征提取思想,利用指定的尺度因子对图像滤波构造尺度空间。改变图像内容的大小或模糊程度;

·
对比度变换(对比):在图像的HSV颜色空间,改变饱和度S和V亮度分量,保持色调H不变。对每个像素的S和V分量进行指数运算(指数因子在0.25到4之间),增加光照变化;

·
噪声扰动(noise):对图像的每个像素RGB进行随机扰动,常用的噪声模式是椒盐噪声和高斯噪声;

·
颜色变换(颜色):在训练集像素值的RGB颜色空间进行PCA,得到RGB空间的3个主方向向量,3个特征值,p1,p2,p3,λ1,λ2,λ3。对每幅图像的每个像素积Ixy
= [IRxy,IGxy,IBxy] T,进行加上如下的变化:[P1,P2,P3] [α1λ1,α2λ2,α3λ3] T …

其中:的αi是满足均值为0,方差为0.1的随机变量。

同时,在实际的样本中,我们使用的数据集并非完美的,常常遇到各种各样的难以分辨的数据,比如光照,遮挡,误分类等都会导致数据集的难以识别,这样,就需要我们对数据进行分析,进行数据清洗。从数据的角度来看,常用的方法可以有以下几种:

i. 随机抽样,查看标注样本质量。首先,我们需要观察样本的标注情况,如果样本标注情况,问题不大可以暂时不做处理。去掉难的样本。

ii. 以ADAS场景为例,实际上在视频图像中,存在非常多的小目标和遮挡目标,这个时候,我们需要明确定义,当前模型能够处理的边界在哪里,检出目标的尺寸多大?遮挡程度什么样子?利用训练好的模型,做样本分析。

iii. 利用训练好的模型,在测试集上进行测试,分析测试结果。在哪一类样本上存在明显问题。产生这个问题的原因是模型还是数据?如果是数据,需要重新明确标注规范。并采用适当的方法进行修正处理。从模型的角度来看,主要的方法就是将其作为一个“弱标签”问题来进行处理。更大的方向,就是不确定问题。

总结

深度学习在发展的过程中并非一帆风顺的,时至今日,深度学习的发展离不开数据的支撑,我们在发展深度学习的过程中,需要严谨的分析,处理数据集,才能使深度学习取得更好的效果,助力人工智能的发展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值