深度学习,这个外行听起来的感觉无非是3个字,高大上,心里也肯定是有疑问的,深度学习?有多深度,学习啥,咋学习,可靠不,你们AI行业是不是都是造机器人的,自动驾驶啥时候可以弄好,以后是不是机器人统治世界了,你们说的都对,关键我也打不上来几个问题啊,哈哈,我能答的就是有多深,学习啥,咋学习,可靠性这几个问题。
首先AI领域很大,深度学习仅仅是其中九牛一毛,深度学习还得进步一归属于机器学习之下,所以搞机器学习的人毫无疑问的向下鄙视深度学习,深度学习可以在图像,文字,声音领域再做一个细分,本人才疏学浅,只会图像领域,文字领域稍有了解,所以我们就只讨论图像相关的深度学习吧
1.深度怎么理解
在理解深度之前,我们先强硬的理解一下,图像深度学习中的必不可少的一个操作:卷积
这个动图是在网上找的,我不会做动图,伸手党直接拿来用,不过,这个算不算侵权啊,这个我不懂啊,我好怕啊。应该没事吧,哈哈哈
回到正题吧,众所周知,一般的图片都有三个通道RGB,我在之前的文章中也说过,你要是不知道,哼,不知道我也没招,现在知道也不晚,最左边三个矩阵就可以理解成RGB三个通道对应的矩阵,矩阵的大小就是图片的宽高。懂了吧,默认懂了。
Filter W0是一个卷积核,它的大小是3*3*3,Filter W1是一个卷积核,它的也是大小是3*3*3
可以从动图中看到,这个卷积核在图片上滑动,你可以这么理解,卷积核相当于你的眼睛,你看一个东西时候是不是也是这种浏览模式,才能知道这个东西是个啥,,刚刚好,这个动图上有两个卷积核,就是模仿人的两个眼睛,自圆其说,不必大惊小怪。
那它是怎么卷积的,注意观察你会发现,就是对应位置相乘,然后再相加,虽然这么说了,你可能还是理解不了,还是不是知道怎么算,那我带着你来算一个吧,看看箭头这个地方的3怎么算的。
通道一
这两个对应位置相乘再相加就是value1 = 0*(-1)+ 0*1+0*1+0*(-1)+2*1 +2*(-1)+0*1+1*(-1)+2*(1),由此可知value1 = 1
再来算通道二,眼睛别花
value2 = 0*1+0*(-1)+0*(-1)+0*(-1)+0*0+2*(-1)+0*(-1)+1*0+2*1
可知value2=0
再来通道三,眼睛别花
value3= 0*1+0*(-1)+0*(-1)+0*(-1)+1*(-1)+1*0+0*(-1)+0*1+2*1
可知value3=1
所以value = value1+value2+value3 = 1+0+1=2
你一看,怎么不等于3,垃圾博主,取关,举报,等一下,别这样,我还没说完呢,你仔细看看,还有一个bias,我们亲切的称呼它为偏执,偏执的人都是疯子,你就叫他疯子也行。在这里,你看看,我多画几个箭头,你看看清楚。
所以最后那个3 = value1+ value2+value3+bias,希望我没算错。
你要是有时间有精力,你可以算法看看别的值是不是这么得出来的,如果他错了,就举报他,反正动图不是我做的,哈哈哈,甩锅一绝。
卷积我还没有讲完,但是今天就讲到这里,先消化消化,别晕了。
对了咩咩狗今天不出战,但是之后会出战,我会用它的数据来做一个分类模型的样本。
至此,敬礼,salute!!!!