【李沐d2l笔记】李沐d2l-1

最新推荐文章于 2023-12-05 10:53:01 发布

小菜白鸟丶

最新推荐文章于 2023-12-05 10:53:01 发布

阅读量444

点赞数

分类专栏：动手学习深度学习-日志文章标签：深度学习 pytorch 神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Aoi_x/article/details/130444391

版权

动手学习深度学习-日志专栏收录该内容

2 篇文章 2 订阅

订阅专栏

目录

04 数据操作 + 数据预处理

08 线性回归 + 基础优化算法

基础优化算法 -梯度下降（gradient descent）

09 Softmax 回归 + 损失函数 + 图片分类数据集

10 多层感知机 + 代码实现

11 模型选择 + 过拟合和欠拟合

01 开始

·课程主页:课程安排 - 动手学深度学习课程

·教材:《动手学深度学习》 — 动手学深度学习 2.0.0 documentation

·课程论坛讨论:中文版 - D2L Discussion

·Pytorch论坛:PyTorch Forums

04 数据操作 + 数据预处理

张量（tensor）:n维数组

标量是0维张量，向量是1维张量，矩阵是2维张量

用torch.tensor自定义一个张量

运算符

连结（concatenate）

第0维是行，第1维是列

2.1.3. 广播机制

广播机制（broadcasting mechanism）

【行不够或列不够，分别按行复制或按列复制】

1.通过适当复制元素来扩展一个或两个数组，以便在转换之后，两个张量具有相同的形状；

2.对生成的数组执行按元素操作。

2.1.4. 索引和切片

X[-1]最后一行。 X[1:3]第1行到第2行（从第0行开始算）[1,3)

也可写成：

X[-1,:]最后一行。 X[1:3,:]第1行到第3行（从第0行开始算）

示例：

运行一些操作可能会导致为新结果分配内存。（析构）

Id(Y)类似C++的指针

使用 Y=Y+X

使用 Y+=X

也可以使用X[:] = X + Y或X += Y

执行原地操作

08 线性回归 + 基础优化算法

线性模型

损失函数 loss

训练

参数学习

基础优化算法 -梯度下降（gradient descent）

梯度下降

梯度下降（gradient descent）

负梯度方向是下降最快的方向。

η学习率（learning rate）

η表示学习率（learning rate）。不能太小不能太大

小批量随机梯度下降

b批量大小(batch_size)

批量大小b不能太小不能太大

总结

·梯度下降通过不断沿着反梯度方向更新参数求解

·小批量随机梯度下降是深度学习默认的求解算法

·两个重要的超参数是批量大小b和学习率η

batch_indices

09 Softmax 回归 + 损失函数 + 图片分类数据集

回归与分类

均方损失

无校验比例

校验比例 / softmax(o)

交叉熵损失cross_entropy

交叉熵常用来衡量两个概率的区别

总结

·Softmax 回归是一个多类分类模型

·使用 Softmax 操作子得到每个类的预测置信度

·使用交叉熵来来衡量预测和标号的区别

损失函数

均方损失L2 Loss

蓝色：y=0时，变y_hat得到的l(y,y’)

绿色：似然函数（高斯分布）

橙色：梯度（导数？）

L1 Loss

蓝色：y=0时，变y_hat得到的l(y,y’)

绿色：似然函数

橙色：梯度

Huber’s Robust Loss

蓝色：y=0时，变y_hat得到的l(y,y’)

绿色：似然函数

橙色：梯度

图像分类数据集

训练数据集（train dataset）

6000*10

torch.Size([1, 28, 28])

灰度图，通道数为1. 高度h像素、宽度w像素记为h×w

测试数据集（test dataset）

1000*10

测试数据集不会用于训练，只用于评估模型性能。

10 多层感知机 + 代码实现

隐藏层和 多层感知机（multilayer perceptron）(MLP)

多层感知机（multilayer perceptron）在输出层和输入层之间增加一个或多个全连接隐藏层，并通过激活函数转换隐藏层的输出。

（示例为2层网络）

（全连接层）

激活函数

常用的激活函数包括ReLU函数、sigmoid函数和tanh函数。非线性变换。

ReLU函数

修正线性单元（Rectified linear unit，ReLU）仅保留正元素并丢弃所有负元素

定义：

函数的曲线图：

sigmoid函数

sigmoid通常称为挤压函数（squashing function）

sigmoid函数将范围（-inf, inf）中的输入变换为区间(0, 1)上的输出

定义：

tanh函数

tanh(双曲正切)函数能将其输入压缩转换到区间(-1, 1)上

公式：

11 模型选择 + 过拟合和欠拟合

模型选择

训练误差和泛化误差

训练误差（training error）：模型在训练数据上的误差

泛化误差（generalization error）：模型在新数据上的误差

验证数据集和测试数据集

训练数据集 train

验证数据集（validation dataset），也叫验证集（validation set）

测试数据集 test

K折交叉验证

欠拟合和过拟合

模型容量

VC维

数据的复杂度

多个重要因素：

·样本个数

·每个样本的元素个数

·时间、空间结构

·多样性

总结

·模型容量需要匹配数据复杂度，否则可能导致欠拟合和过拟合

·统计机器学习提供数学工具来衡量模型复杂度

·实际中一般靠观察训练误差和验证误差

小菜白鸟丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

小菜白鸟丶 CSDN认证博客专家 CSDN认证企业博客

码龄5年

2: 原创

167万+: 周排名

29万+: 总排名

1万+: 访问

: 等级

73: 积分

2: 粉丝

6: 获赞

0: 评论

26: 收藏

私信

关注

热门文章

分类专栏

最新评论

【李沐d2l笔记】李沐d2l-1
CSDN-Ada助手: 非常棒的博客！看到你分享的目录，我感到非常兴奋，因为我也在学习深度学习，并且深知学习的过程中需要更多的实践。除了你在博客中提到的知识点外，我认为对于深度学习的学习，还需要掌握计算机视觉、自然语言处理、强化学习等相关技能，这些技能会帮助你更好的理解深度学习的应用场景和实现方法。期待你的下一篇博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
python+pytorch+d2l 超详细安装攻略
CSDN-Ada助手: 恭喜您开始创作博客！看到您的第一篇文章标题就让我对内容充满期待。希望您能够在博客创作的过程中不断学习、进步，分享更多有价值的内容。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

python+pytorch+d2l 超详细安装攻略

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。