深度学习的数学基础--笔记01

本文探讨了深度网络与神经网络、机器学习的关系,解释了深度网络的深度如何影响其功能,以及为何深度网络在非线性问题上表现优于浅层网络。同时,文章讨论了深度网络的局限性,指出其并非总优于浅层网络,取决于问题的性质。
摘要由CSDN通过智能技术生成

题外话:
1.又是一次全英的教案,预习时看着都头大!不过事情总有转机,课上比课前有趣。思考才有收获!
2.不得不承认,读英文的东西确实能打开一些认识。第一次满脑子疑问的去学一门课,可能这才是正确的学习方式!(希望学完这门课,我能觉得神经网络是一个可以对话的人,不再是不讲道理的神)
3.有学习的伙伴交流,会看到不同的视角。最近有一个感受:想解释一个东西,其实不难!只要找到合理的切入点最后都能自圆其说。但不要忘了,事实上这个东西的成因不只你找到的这一面,所以学无止境。但这不是现在想说的重点,对我而言重点是一切开始相对化不再绝对化了。科学好像就是在分叉,每一个分支都是一个道理,但都不再是唯一的道理~

正文:
1.为什么叫深度网络?它和神经网络、机器学习有什么关系?
深度网络的深度指的是隐藏层数量。神经网络是机器学习系统中一种重要的算法模型(方法、工具)。神经网络可以分为浅层的(1层隐藏层)、深层的。
【注】对于机器学习系统来说,除了神经网络方法,还有像线性回归、决策树、SVM等方法。
2.“神经网络就是一个拟合非线性关系的函数”——那这个函数到底是什么函数?
从数学角度看,浅层网络可以类比有限的傅里叶级数(这里的有限,含义是对空间上的运算封闭。就像近世代数里的群,这个函数空间满足群的封闭性);
在这里插入图片描述
深层网络可以类比引入了两个自由参数的傅里叶级数。但它不再对运算不再封闭,也就是说,此时的函数空间是非线性的空间。
在这里插入图片描述
【注1】为什么是傅里叶级数:傅里叶级数具有将周期信号表示出来的能力——通过将信号分解成一组基(正弦函数、余弦函数、1)——类似于线性变换可以通过一组基表示出来全空间,所以浅层神经网络可以通过神经元(自由参数)表示出来输出。

【注2】非线性因素的引入:通过把基里面融入自由参数,让基之间的关系变得不再线性。

【注3】网络——函数(函数族:所有可能的网络,在训练过程中)
线性关系——对于所有输入,若输出都一样,则一定是经过的同一个网络
非线性关系——对于所有输入,若输出都一样,经过的不一定是同一个网络(自由参数不同)。多的隐藏层实际上通过增添不确定性扩大了自由发挥的空间,好比以前是一个人负责一件事,现在是一个部门负责这件事。(这说明了隐藏层的作用
在这里插入图片描述
3.“神经网络就是确定参数”——哪来的参数,到底是什么参数。怎么一会变量,一会儿参数的?
我们要用f逼近y,办法就是最小二乘法来找最佳逼近器f
线性:
在这里插入图片描述
下图从左至右:
第一个矩阵–输入的样本数M——变量
第二个列向量–网络(自由参数N)——参数,特征数(网络中的节点)
第三个列向量–输出的结果
(当然,当参数没有确定,本质上也是变量)

M>>N–这是一个超定系统,有解但不是唯一解。这就解释了训练好的网络,拿去预测也会犯错
【注】超定系统没有准确的解,正定系统有唯一的解,欠定系统没有解
在这里插入图片描述
非线性:
此时大多数情况非凸函数,即容易陷入局部最小值,这个优化(减小误差)带来困难。
在这里插入图片描述

4.从理论上能不能解释,对于拟合非线性问题为什么深度网络效果好?
在这里插入图片描述
在这里插入图片描述
有理论上的证明:
对于线性拟合(即浅层神经网络),若想要达到控制误差的精度,则自由参数的数量必须指数增长。
而对于非线性拟合(即深层神经网络),若想要达到控制误差的精度,则自由参数的数量呈线性增长。
也就是说,这个理论说明:通过引入激活函数,神经元(节点/特征)的数目就不用那么多了。反映出,针对处理非线性问题,非线性拟合方法要比线性拟合方法强!
【注】问题的维度是由函数空间的基数目确定的。线性空间2N+1维是低维的,非线性空间是高维的。

5.深度网络的局限性在哪?
深度网络不是始终比浅层网络好。这取决于问题性质。比如
对于简单问题,即线性问题,深度网络的拟合效果一般没有浅层的好。就像该一个人完成的活分配给很多人,效果还没有一个人时好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值