深度学习的数学基础--笔记01

看海天一色听风起雨落

已于 2024-03-14 23:04:49 修改

阅读量427

点赞数 5

分类专栏： My Thinking My Task 文章标签：深度学习笔记人工智能

于 2024-03-14 22:59:23 首次发布

本文链接：https://blog.csdn.net/qq_52245889/article/details/136721420

版权

My Task 同时被 2 个专栏收录

26 篇文章 3 订阅

订阅专栏

My Thinking

9 篇文章 0 订阅

订阅专栏

本文探讨了深度网络与神经网络、机器学习的关系，解释了深度网络的深度如何影响其功能，以及为何深度网络在非线性问题上表现优于浅层网络。同时，文章讨论了深度网络的局限性，指出其并非总优于浅层网络，取决于问题的性质。

摘要由CSDN通过智能技术生成

题外话：
1.又是一次全英的教案，预习时看着都头大！不过事情总有转机，课上比课前有趣。思考才有收获！
2.不得不承认，读英文的东西确实能打开一些认识。第一次满脑子疑问的去学一门课，可能这才是正确的学习方式！（希望学完这门课，我能觉得神经网络是一个可以对话的人，不再是不讲道理的神）
3.有学习的伙伴交流，会看到不同的视角。最近有一个感受：想解释一个东西，其实不难！只要找到合理的切入点最后都能自圆其说。但不要忘了，事实上这个东西的成因不只你找到的这一面，所以学无止境。但这不是现在想说的重点，对我而言重点是一切开始相对化不再绝对化了。科学好像就是在分叉，每一个分支都是一个道理，但都不再是唯一的道理~

正文：
1.为什么叫深度网络？它和神经网络、机器学习有什么关系？
深度网络的深度指的是隐藏层数量。神经网络是机器学习系统中一种重要的算法模型（方法、工具）。神经网络可以分为浅层的（1层隐藏层）、深层的。
【注】对于机器学习系统来说，除了神经网络方法，还有像线性回归、决策树、SVM等方法。
2.“神经网络就是一个拟合非线性关系的函数”——那这个函数到底是什么函数？
从数学角度看，浅层网络可以类比有限的傅里叶级数（这里的有限，含义是对空间上的运算封闭。就像近世代数里的群，这个函数空间满足群的封闭性）；
在这里插入图片描述
深层网络可以类比引入了两个自由参数的傅里叶级数。但它不再对运算不再封闭，也就是说，此时的函数空间是非线性的空间。

【注1】为什么是傅里叶级数：傅里叶级数具有将周期信号表示出来的能力——通过将信号分解成一组基（正弦函数、余弦函数、1）——类似于线性变换可以通过一组基表示出来全空间，所以浅层神经网络可以通过神经元（自由参数）表示出来输出。

【注2】非线性因素的引入：通过把基里面融入自由参数，让基之间的关系变得不再线性。

【注3】网络——函数（函数族：所有可能的网络，在训练过程中）
线性关系——对于所有输入，若输出都一样，则一定是经过的同一个网络
非线性关系——对于所有输入，若输出都一样，经过的不一定是同一个网络（自由参数不同）。多的隐藏层实际上通过增添不确定性扩大了自由发挥的空间，好比以前是一个人负责一件事，现在是一个部门负责这件事。（这说明了隐藏层的作用）
在这里插入图片描述
3.“神经网络就是确定参数”——哪来的参数，到底是什么参数。怎么一会变量，一会儿参数的？
我们要用f逼近y，办法就是最小二乘法来找最佳逼近器f
线性：

下图从左至右：
第一个矩阵–输入的样本数M——变量
第二个列向量–网络（自由参数N）——参数，特征数（网络中的节点）
第三个列向量–输出的结果
（当然，当参数没有确定，本质上也是变量）

M>>N–这是一个超定系统，有解但不是唯一解。这就解释了训练好的网络，拿去预测也会犯错。
【注】超定系统没有准确的解，正定系统有唯一的解，欠定系统没有解
在这里插入图片描述
非线性：
此时大多数情况非凸函数，即容易陷入局部最小值，这个优化（减小误差）带来困难。

4.从理论上能不能解释，对于拟合非线性问题为什么深度网络效果好？
在这里插入图片描述

有理论上的证明：
对于线性拟合（即浅层神经网络），若想要达到控制误差的精度，则自由参数的数量必须指数增长。
而对于非线性拟合（即深层神经网络），若想要达到控制误差的精度，则自由参数的数量呈线性增长。
也就是说，这个理论说明：通过引入激活函数，神经元（节点/特征）的数目就不用那么多了。反映出，针对处理非线性问题，非线性拟合方法要比线性拟合方法强！
【注】问题的维度是由函数空间的基数目确定的。线性空间2N+1维是低维的，非线性空间是高维的。