自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 深度学习笔记 DatawhaleX李宏毅苹果书 AI夏令营

全连接网络是弹性最 大的。全连接网络可以决定它看整张图像还是只看一个范围,如果它只想看一个范围,可以 把很多权重设成0。加上感受野的概念以后,只能看一个小范围,网络的弹性是变小的。参数共享又进一步限制了网络的弹性。感受野加上参数共享就是卷积层(convolutional layer),用到卷积层的网络就叫卷积神经网络1. 感受野(Receptive Field)感受野是指每个神经元处理的图像区域。通过限制每个神经元的视野,网络只能看到图像的一小部分,增加了网络的局部性。

2024-09-02 16:45:02 491

原创 深度学习笔记 DatawhaleX李宏毅苹果书 AI夏令营

3.7 批量归一化 定义:批量归一化(Batch Normalization, BN)是一种将误差表面“铲平”的技术,使模型训练变得更容易。 误差表面问题:当输入特征的不同维度值范围差异很大时,会导致误差表面在不同方向上的斜率差异很大,使得训练变得困难。 特征归一化:通过归一化技术,可以使不同维度的特征具有相同的数值范围,从而改善误差表面,使训练更加容易。 批量归一化的可能性 Z值归一化(标准化): 计算每个维度的平均值(mean)和标准差(standard deviatio

2024-09-01 22:06:39 398

原创 深度学习笔记 DatawhaleX李宏毅苹果书 AI夏令营

第2章 实践方法论2.1 模型偏差定义:模型偏差指模型在训练数据上无法准确拟合,损失较高。 原因:模型过于简单,灵活性不足,无法捕捉到数据中的复杂关系。 解决方法: 增加输入特征数量,例如从使用前一天的信息增加到使用前56天的信息。 使用更复杂的模型,如深度学习,增加模型的灵活性。 注意:损失大不一定仅由模型偏差导致,也可能是优化问题。2.2 优化问题定义:模型在训练过程中无法有效降低损失,可能陷入局部最小值。 例子:残差网络(ResNet)中,56层网络比20层网络在训练集

2024-09-01 21:30:21 318

原创 深度学习笔记 DatawhaleX李宏毅苹果书 AI夏令营

这段代码定义了一个图像分类器类(Classifier),继承自PyTorch的nn.Module。该分类器通过一系列卷积层、批归一化层、激活函数和池化层构建卷积神经网络(CNN),用于提取图像特征。随后,这些特征被输入到全连接层进行分类,最终输出11个类别的概率,用于图像分类任务。"""定义一个图像分类器类,继承自PyTorch的nn.Module。该分类器包含卷积层和全连接层,用于对图像进行分类。""""""初始化函数,构建卷积神经网络的结构。包含一系列的卷积层、批归一化层、激活函数和池化层。

2024-08-31 16:29:05 487

原创 深度学习笔记 DatawhaleX李宏毅苹果书 AI夏令营

最终公式其中,是动量项,ηt​ 是随时间变化的学习率。变形与优化器:各种优化器主要区别在于计算 mit​ 和 σit​ 的方式,以及学习率调度的策略。

2024-08-29 00:08:55 572

原创 深度学习笔记 DatawhaleX李宏毅苹果书 AI夏令营

有了θ∗ 以后,就把它拿来用在测试集上,也就是把θ∗带入这些未知的参数,本来fθ(x) 里面有一些未知的参数,现在θ 用θ∗ 来取代,输入是测试集,输出的结果存起来,上传到 Kaggle 就结束了。fθ(x)的意思就 是函数叫fθ(x),输入的特征为x,;把输入的特征x乘上一 个权重,再加上一个偏置就得到预测的结果,这样的模型称为线性模型(linear model)3. 解一个优化的问题,找一个θ,该θ可以让损失的值越小越好。2. 定义损失,损失是一个函数,其输入就是一组参数,去判断这一组参数的好坏;

2024-08-28 21:15:47 347

原创 深度学习笔记 DatawhaleX李宏毅苹果书 AI夏令营

3.2 批量和动量3.2.1 批量大小对梯度下降法的影响批量梯度下降法(Batch Gradient Descent, BGD)定义:使用全部训练数据来计算损失和梯度,然后更新参数。 特点: 每次迭代计算量大,因为需要遍历所有数据。 不适合大数据集,因为计算时间长。 随机梯度下降法(Stochastic Gradient Descent, SGD)定义:每次只使用一笔数据来计算损失和梯度,并更新参数。 特点: 更新速度快,因为每次只处理一笔数据。 梯度带有随机噪声,更新方

2024-08-27 17:58:28 216

原创 深度学习笔记 DatawhaleX李宏毅苹果书 AI夏令营

鞍点:梯度为零,但既不是局部极小值也不是局部极大值的点,其形状类似于马鞍。通过海森矩阵的负特征值对应的特征向量,可以找到使损失下降的参数更新方向。局部极小值:参数在该点附近的所有方向上,损失都是局部最小的。局部极大值:参数在该点附近的所有方向上,损失都是局部最大的。在高维空间中,低维的局部极小值可能只是高维的鞍点。定义:临界点是指参数对损失函数的微分为零的点。L(θ′)为损失函数在 θ′处的值,g为梯度,H为海森矩阵。若 H 的所有特征值均为正,则为局部极小值。若 H 的所有特征值均为负,则为局部极大值。

2024-08-26 20:35:25 193

原创 深度学习笔记. DatawhaleX李宏毅苹果书 Ai夏令营

衡量模型预测值与实际值之间差异的函数。对于给定的模型,损失函数的输入是模型的参数,而输出则是一个标量值,表示当前参数设定下模型预测的好坏程度。

2024-08-26 12:56:54 356

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除