yu0586-CSDN博客

原创 “Datawhale X 李宏毅苹果书AI夏令营”

讲完了卷积神经网络以后，我们要讲另外一个常见的网络架构——自注意力模型（selfattention model）。目前为止，不管是在预测观看人数的问题上，还是图像处理上，网络的输入都是一个向量。如图 6.1 所示，输入可以看作是一个向量，如果是回归问题，输出是一个标量，如果是分类问题，输出是一个类别。

2024-08-31 14:16:37 207

原创 “Datawhale X 李宏毅苹果书AI夏令营”

在应用机器学习算法时，实践方法论能够帮助我们更好地训练模型。如果在 Kaggle 上的结果不太好，虽然 Kaggle 上呈现的是测试数据的结果，但要先检查训练数据的损失。看看模型在训练数据上面，有没有学起来，再去看测试的结果，如果训练数据的损失很大，显然它在训练集上面也没有训练好。接下来再分析一下在训练集上面没有学好的原因。

2024-08-31 14:07:56 134

图 3.18 中的横坐标代表参数更新的次数，竖坐标表示损失。一般在训练一个网络的时候，损失原来很大，随着参数不断的更新，损失会越来越小，最后就卡住了，损失不再下降。当我们走到临界点的时候，意味着梯度非常小，但损失不再下降的时候，梯度并没有真的变得很小，图 3.19 给出了示例。图 3.19 中横轴是迭代次数，竖轴是梯度的范数（norm），即梯度这个向量的长度。图 3.20 是误差表面，梯度在山谷的两个谷壁间，不断地来回“震荡”，这个时候损失不会再下降，它不是真的卡到了临界点，卡到了鞍点或局部最小值。

2024-08-28 14:35:59 202

原创 “Datawhale X 李宏毅苹果书AI夏令营”

在深度学习框架里面，比如 PyTorch 里面，算微分都是程序自动帮计算的。就是反复同样的步骤，就不断的更新 w 跟 b，期待最后，可以找到一个最好的 w，w∗ 跟最好的 b∗.如图 1.5 所示，随便选一个初始的值，先计算一下 w 对 L 的微分，跟计算一下 b 对 L 的微分，接下来更新 w 跟 b，更新的方向就是 ∂L/∂w，乘以 η 再乘以一个负号，∂L/∂b，算出这个微分的值，就可以决定更新的方向，可以决定 w 要怎么更新。

2024-08-28 14:26:31 290

原创 “Datawhale X 李宏毅苹果书 AI夏令营”

但其实损失不是只在局部极小值的梯度是零，还有其他可能会让梯度是零的点，比如鞍点（saddle point）。损失没有办法再下降，也许是因为收敛在了临界点，但不一定收敛在局部极小值，因为鞍点也是梯度为零的点。但是如果一个点的梯度真的很接近零，我们走到临界点的时候，这个临界点到底是局部极小值还是鞍点，是一个值得去探讨的问题。因为如果损失收敛在局部极小值，我们所在的位置已经是损失最低的点了，往四周走损失都会比较高，就没有路可以走了。但有时候，模型一开始就训练不起来，不管我们怎么更新参数，损失都降不下去。

2024-08-23 20:26:53 142

原创 “Datawhale X 李宏毅苹果书 AI夏令营”

还有好多的任务需要找一个很复杂的函数，以图像识别为例，图像识别函数的输入是一张图片，输出是这个图片里面的内容。机器要找一个函数 f，其输入是可能是种种跟预测 PM2.5 有关的指数，包括今天的 PM2.5 的数值、平均温度、平均的臭氧浓度等等，输出是明天中午的 PM2.5的数值，找这个函数的任务称为回归（regression）。机器找一个函数，该函数的输入是棋盘上黑子跟白子的位置，输出就是从 19×19 个选项里面，选出一个正确的选项，从 19 × 19 个可以落子的位置里面，选出下一步应该要落子的位置。

2024-08-22 14:49:33 198

qq_55933788的博客

原创 “Datawhale X 李宏毅苹果书AI夏令营”

原创 “Datawhale X 李宏毅苹果书AI夏令营”

原创 “Datawhale X 李宏毅苹果书AI夏令营”

原创 “Datawhale X 李宏毅苹果书AI夏令营”

原创 “Datawhale X 李宏毅苹果书 AI夏令营”

原创 “Datawhale X 李宏毅苹果书 AI夏令营”

空空如也

空空如也