深度学习课程笔记

最新推荐文章于 2024-02-12 11:00:00 发布

UN_spoken

最新推荐文章于 2024-02-12 11:00:00 发布

阅读量2.2k

点赞数 1

分类专栏：课程学习人工智能文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/UN_spoken/article/details/107951287

版权

3 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

比如说商品的价格x与销售量y之间的关系，模型假设是销售量y与商品价格x是一个反比例的关系，参数是销售量y与商品价格x，模型假设是m，则评价函数是1/N * (m*x-y)^2 ,这个N应该是总的样本个数。
因为深度学习工程师实际上进行的是一个端到端的一个计算过程，他不需要去了解太多的行业背景，也不需要太多的行业经验，他完全可以把得到的原始的没有任何特征的数据输入到网络中，然后得到网络的输出，就会发现数据已经拥有了特征，问题得到了解决，而深度学习工程师所需要做的就是如何去构建这样一个学习的网络。从市场供需来说，市场很需要可以完成这样工作的人才，但是有经验的人才并不总是那么容易就得到的，因此，深度学习给了市场这样一种解决的办法，同时也给了我们这些没有太多行业经验的人一个机会，这就是我的理解吧。

我看课程中老师说的是为了尽可能地模拟真实的环境，不过这个我不是很明白，我自己的理解是这样，我觉得一开始我们是将数据集进行划分的，80%划分为训练集，20%划分为测试集，因此测试集的归一化需要使用训练集的均值和极值进行计算，因为训练集更多嘛，测试集相对来说数据还是有点少的。
这个呢，一开始我是以为那应该就是到达极值点了，但实际上我把我的数学知识都还给老师了。这个应该是不一定的，首先它有可能是确实到达了全局的极值点；但是也有可能只是一个局部的极值点，这个时候我们就要去和其他的极值点进行比较，判断哪个是全局的极值点如图1所示；同样它还有可能根本不是一个极值点，比如说马鞍这样一个特殊的图形，如图2所示，沿着y轴来看，确实是一个极小值，但是沿着x轴来看却不是极小值，而是一个极大值了，这就很有意思，所以说我们在考虑问题的时候一定要从多个角度去考虑，另外数学基础真的很重要，一定要好好学习数学知识。

随机梯度下降的batchsize应该根据自身的情况进行设定，如果数据集不是很大，可以将全部数据读入；如果数据太大，可以考虑使用mini-batch。如果设置过小的话，如单个样本，那么每个epoch就会花费较多的时间，同时由于每次都按照一个样本进行更新梯度，那么可能梯度会方向混乱，最后导致无法收敛；如果设置过大的话，如整个样本集合，虽然epoch的时间减少了，但是可能需要更大的epoch,同时对于数据集很大的情况来说，可能会导致内存崩溃。所以要合理地选择batchsize。
最内层的循环会执行1000/20 = 50轮。

基本知识

1. 求导的链式法则

链式法则是微积分中的求导法则，用于求一个复合函数的导数，是在微积分的求导运算中一种常用的方法。复合函数的导数将是构成复合这有限个函数在相应点的导数的乘积，就像锁链一样一环套一环，故称链式法则。如图9 所示，如果求最终输出对内层输入（第一层）的梯度，等于外层梯度（第二层）乘以本层函数的梯度。

图9：求导的链式法则

2. 计算图的概念

（1）为何是反向计算梯度？即梯度是由网络后端向前端计算。当前层的梯度要依据处于网络中后一层的梯度来计算，所以只有先算后一层的梯度才能计算本层的梯度。

（2）案例：购买苹果产生消费的计算图。假设一家商店9折促销苹果，每个的单价100元。计算一个顾客总消费的结构如 图10 所示。

图10：购买苹果所产生的消费计算图

最后一层的输出对自身的求导为1。导数第二层根据 图11 所示的乘法求导的公式，分别为0.9*1和200*1。同样的，第三层为100 * 0.9=90，2 * 0.9=1.8。

图11：乘法求导的公式

作业题

图12：乘法和加法的导数公式

图13：购买苹果和橘子产生消费的计算图

图14：两层的神经网络

关注