深度学习自学笔记(一)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/u012990623/article/details/47442629

深度学习自学笔记(一)

声明

这是一个初学者写给自己看的笔记,一个原因是想记录我学习深度学习的思考过程,另一个是顺便整理自己刚学的内容,所以内容非常肤浅,但我认为这样反而更容易让新手接触这个东西,所以若大牛们发现里面的错误,还望不吝指点,我会尽快更正,以免误导他人。我主要的学习思路是来自这篇博客http://blog.csdn.net/fish0058/article/details/19756845,我认为他是目前论坛里最简单易懂的教程,所以各位看客若是觉得本渣写的很差,请看这篇博客。另外我会尽量少用数学推导来讲解一个算法,一是大牛们早已推倒过无数次(我也会把大牛推导的连接的附在上面),二是这篇笔记主要是用来引导自己思考和回忆的作用。好了,我马上开始进入深度学习的世界,这篇帖子也会随着我的学习而更新。



一、什么是深度学习

以我的学习经验来看,学习一个东西,最好先清楚他是做什么的,有什么用处,于是在学习其中每一步的时候,有了大方向的指引,才更好理解。所以我想先记录深度学习到底能做什么,它为什么这么火,然后再慢慢学习其中的细节。

首先大家都了解机器学习吧,就是让计算机能和人一样的认知事物,所以我认为机器学习一个很重要的工作就是分类,先从训练数据中进行学习,然后给定一堆数据能正确的对每一个数据进行分类。而深度学习的作用就是让计算机具有更强的学习能力,所以他是一种非常非常优秀的机器学习算法,那我们先来看目前机器学习的大概工作流程:

比如放在计算机视觉相关领域中,第一步得到图片矩阵,里面都是raw pixel;第二步进行图像预处理,比如灰度,白化,仿射投影什么的,主要为了降噪,提高后面的效果;第三步提取特征,如sift, hog, pixel difference,直接用像素作为特征效果一般很差;第四步选取特征;第五步根据提取到的特征进行分类回归。

粗略的来说我认为归为两大步骤:一是特征表达(2,3,4步),二是分类回归(第五步)。这点和人认知事物的思路是一样的,比如认一个篮球,先看这个物体的特征表达,形状是球形,颜色是橡胶红色,将这两点特征给大脑已经学习好的知识体系,得出结论这东西是篮球。

也就是说要想本质的提高机器学习算法的性能,必须在两个步骤中进行改进。那我们先来看看在机器学习中,这两大步骤一般都是哪些算法。我比较熟悉的,特征提取里面有sift,hog,光流,pixel difference。分类算法有SVM,regression tree,random forest。而系统主要的计算和测试工作都耗费在特征提取这一块,而且一般这些特征都是人工设计的,人为的告诉计算机这个特征该怎么提取。虽然,有不少效果非常好的特征,如sift,但也不是万能的,人脸用sift,行为用sift,目标跟踪还用sift,效果肯定是因用途而异。因此我们想要一种模型,能够自己根据目标对象来设计特征,这样的特征肯定能更好的揭露目标的本质,提取更多有用信息,效果肯定也更好。而deep learning就是这么做的,正如其另一个别名unsupervised feature learning。

我能想到最类似的方法为FA3000里面结合random forest和pixel difference在训练数据中学习出的binary features,该方法也是通过训练数据学习出特征提取,取得了the state of art成果,也证明了学习得到的特征效果往往较好。

接下来问题来了怎样一个牛逼的模型才能自己学习提取特征呢?说起来可能会吓到宝宝,为了实现自动学习特征提取,深度学习模拟大脑神经网络采用分层结构来学习训练数据,即一层层的对数据进行抽象认知,先提取低级特征(如边缘特征),然后对低级特征进行组合提取出语义层次高一些的特征(如形状),通过这样不断的迭代,最后得到的特征最具有区别性。听起来有点复杂,所以借用一张图来说明人脑是怎么认知事物的

我再来解释一下,人脑从曾经接触过的无数个图片(像素矩阵)中,挑取出最具有代表性的像素组合作为特征,也就是边缘patch(生物学上有实验依据,记住就行),然后大脑又将这些边缘特征进行组合提取出更具有代表性的组合patch,继续这样,最后组合出来的特征就极具区分性了。深度学习就是描述这个过程,所谓深度,就是分层的深度,学习就是每一层怎样学习挑取特征。因此深度学习的结构模型与人脑认知的结构类似

第一层为输入层,输入一大堆训练数据,黑线就是要学习的参数-权重,影响如何生成第二层的特征,那橘黄色的第二层显然就是要学习的特征空间了,对应人脑里面的边缘那一层,最后一层为输出,输出最终要提取的特征。(如果在最后一层加个分类器,不就是整个ML过程了?)

数学上,我认为还可以这样理解,如果把特征提取看做是一个映射函数,将原始图像映射到一组向量-特征。那么深度学习的每一层其实是一个线性映射(基的线性组合)将数据映射到那一层所在的特征空间,这样多次线性映射后的结果接近非线性映射,从而能够拟合更复杂的映射函数,也就获得了更优秀的特征(感觉和级联回归模型类似,通过多次线性回归,模拟非线性回归)。

讲到这里,只是想让大家明白深度学习想要干什么,他能完后什么牛逼的工作,为什么能变的这么火,他的结构是什么样子的,至于这个结构为什么能完成这个功能,每一层的圈圈到底是什么,那些权重为什么影响学习的特征,什么牛逼的算法才能训练这个结构,这些东西我会接下来慢慢更新给大家。还是那句话,我也是初学者,很多东西都很肤浅甚至是错误的,所以希望大家能提取意见,我会积极改正。

展开阅读全文

没有更多推荐了,返回首页