关于深度学习的一点思考

写在前面的碎碎念:按照习惯,开始总想写点什么东西。可能是高中写题记作文凑字数养成的习惯,其实我觉得这个习惯还是挺好的,可以作为正式开始的过渡,让语言表达慢慢开始进入状态。这篇博文只是闲来无事思考一下,并没有太多金子在里面。或许有吧,等我发现了再挖出来。

傅里叶变换、奇异值分解、小波变换、泰勒公式、幂级数和傅里叶级数、数值分析

你可能好奇我为什么开始就把这个扔出来,进错片场了?而且我本身数学学的就一般般(我讨厌考试,并不是因为我蠢)
咱先整理一下几篇比较好的文章:
傅里叶变换
小波变换
泰勒公式和泰勒多项式
SVD奇异值分解
幂级数
数值分析就不说了,研究生和数学专业本科生应该都上过的课。虽然我只考了60分,但是上机题都是自己一个个做出来的,所以比…恕我直言XXX算了,不说了。
这个不重要
这里大家应该能看出来有一个非常有趣的现象:一个复杂的东西让人摸不着头脑的东西,可以用一堆简单的东西进行组合表示。虽然上面一堆看似没有关系,但是实际上表达的都是这样的思想。数学真是充满了神奇。我写这篇博文究竟要表达什么呢?下面开始。

神经网络,分类任务:

在这之前,我想说一下,图像分类的工作和OCR这样的工作其实就是一个分类器。什么是分类器,举个例子:男生站左边女生站右边,这就是一个分类。只不过这是一个维度上的二分类。下面扩展到二维:胖的人站左边,瘦的人站右边,这时候就不能只看体重进行分类了,还要考虑身高,简单的可以看做身高体重比进行分类,这就相当于在身高-体重的坐标系里划了一条线,进行二分类。当然,这条线现在是直线,显然这种操作对于接近原点和远离远点的两端描述能力可能会差一些。对于处在中间的大多数人是可以用的。这就可以直接看做一次特征降维的过程。(PCA SVM什么的不说了)。神经网络起初也只是个有多个维度输入的一个分类器。训练的过程就是找到一个一维临界点、二维的一条线、三维的一个面来对数据进行区分。(这里假设各个维度正交)也就是说,神经网络在做分类任务(升级版为定位任务和语义分割)时候就是一个超级的高维拟合函数。
说到拟合函数,就不得不提数值分析了,多项式拟合有一个非常有趣的东西:高阶拟合会产生龙格现象。像极了过拟合。插值算法,插值出的结果穿过采样点。假设采样点是噪声。。。。像极了过拟合。
但是,这里不得不提数学一个非常有趣的事,就是上面提到的,前n项代表了信息的主体。我们只要找到最具意义的项就可以了基本满足使用要求。像极了PCA。
话说回来:我觉得神经网络前面的层提取的是一些细微的特征,后面的层提取的是更整体的特征。分别像傅里叶变换的高频和基频。当然,这种理解可能有些欠缺,不过还是值得思考,这些神奇的规律之间有没有什么不可描述的故事,或者说在应用深度学习过程中,傅里叶、小波、奇异值分解这些能不能结合进去?

个人理解:(不一定对,至少学了一个月我是这么觉得的)

卷积神经网络前XXX段是用来提取特征,起到的作用就是一个特征提取器,高维特征各种不知道的统计特征。后面全连接层就是一个分类器,提取到的一个特征就是一个维度,经过训练好的全连接分类器可以得到这些个特征所代表的是个什么类别。

卷积神经网络就是一种特殊的非全连接神经网络。

都很熟悉m个输入n个输出的全连接结构。如果把卷积神经网络展开成一行,以3*3为例。可以得到一个规律的9-1的非全连接神经网络。考虑到图像是一个二维矩阵,而且图像是一个像素间位置相邻,更可能有“关联”的特性,或者说,局部的像素间更可能包含有用的信息。卷积神经网络手动强化了这种关系,断开了与卷积核(中心)较远(不相关)的连接。

RGB三通道图像作为神经网络输入真的是最好的输入源吗?

RGB的颜色模型确实适合显示,但是这三个通道代表的含义是三个颜色分量的信息。其实颜色在物理上也就是一个一维的连续信号:不同波长的波。如果在扔进神经网络之前就转换成HSV模型,分离出波长、能量的关系。举个例子:扩充数据集有一种常见方法是更改图像亮度。这在HSV模型里,就是把强度值那个通道调整一下而已。个人认为HSV作为一组基去代表一个像素的特征要比RGB三个维度更有数学意义。

神经网络的学习率就是牛顿迭代法里面的△x

这个是个人见解,不是真的啊。
PyTorch的介绍
仔细看是不是很像。


走神时候瞎想的碎碎念
1、伦理问题
撞人问题,经典问题,车子刹车失控,正前方站着一群人,旁边只有一个人。选择撞一个人还是撞一群人?
放到自动驾驶,问题更复杂,比如全景感知发现一辆卡车冲向你。但是旁边都是行人和电动车等。自动驾驶应该选择保护自己还是伤害路人?
2、路标判断问题
多数路标是不具备翻转含义不变性的。因为具有方向性或者比如一些数字标识。在数据训练阶段针对图像识别要针对性屏蔽掉翻转、旋转带来的歧义。假如、因为光线原因,比如恰好旁边路过一辆装镜子的车,镜面反射了路标被采集到。人在开车时候知道那是车子上的镜子反射的虚像,所以可以纠正意识。CV方式只是看到那是个路标,而且是翻转后的路标。也就是说如何让机器理解那是“车子上的镜子的虚像”从而忽略掉干扰。这是个问题。多级网络?


PCA和线性回归的相似性

PCA依次找到一组基来变换表示数据的分布,使数据在这一组基上面更具有区分度。线性回归是在一组数据上找到一条线,满足某要求,假设是去拟合一组数据,那么在这样的情况下,线的分布方向和PCA的基的方向其实是类似的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值