szf03-CSDN博客

原创作业13 优化算法3D

而动量（moment）通过引入一个新的变量 v 去积累之前的梯度通过指数衰减平均得到v，达到加速学习过程的目的。使用指数加权平均，指数衰减平均，只保留过去给定窗口大小的梯度，而非累加全部历史梯度，避免了二阶动量持续累积，训练提前结束。优点：对于梯度较大的参数，学习率较小，梯度较小的效果相反，使参数在平缓的地方下降稍微快点，不至于徘徊不前。SGD的缺点是参数更新方向只依赖于当前batch计算出的梯度，因此十分的不稳定。缺点：由于是累计梯度的平方，到后面Gt累计较大，导致梯度消失。3.复现CS231经典动画。

2024-01-03 12:11:04 385 1

原创 nndl 作业12 优化算法2D可视化

优化算法。

2023-12-27 22:36:08 1002 1

原创作业11 LSTM

所以门为1，很好的减轻梯度消失的问题，门为0的时候对当前时刻没有影响，也没必要传递更新参数。虽然numpy结果相同，但是是没有经过tanh激活的，所以在代码中可进行激活，出现小数状况。所以只需要看前部分，至少大于等于ft,只要ft=1，就会缓解梯度消失。这里主要主义的就是公式的熟悉以及输入形状进行运算的有可能出现的错误。无关，求导的时候较容易被忽略，其实不然和我上面所说的相同。加号后面的道理是一样的，不加以推导。上面所写的式子中，加号前面的。重要的是输入的最后末尾的1。遗忘门，输入门，输出门在。

2023-12-20 22:08:02 489 2

原创作业10 BPTT

p习题6-1P。

2023-12-13 22:07:19 430

原创作业9 RNN - SRN

这个已在上面总结，此处不再赘述。理论课总结：1.RNN 简单用公式描述为。w和b为权重参数和超参数。而且一般输出层用全连接神经网络连接。循环和其他不同的是，循环有一个存储器，存储之前的输出，第i层神经元在m时刻的输入取决于i-1层神经元在m时刻的输出和i层神经元在m-1时刻的输出。讲述了简单的循环神经网络，能够处理时序问题，这是前馈神经网络的不足应用到序列分类问题，情感分类，同步，异步序列到序列作业总结：了解了循环神经网络内部是怎么运行的，以及代码实现。不加激活函数有可能导致梯度的爆炸。

2023-12-04 21:04:18 1015

原创 NNDL 作业8 卷积导数反向传播

习题5-2。

2023-11-27 20:51:42 979 1

原创 NNDL 作业7 基于CNN的XO识别

多通道，N输入，M输出是指一个具有多个输入通道和多个输出通道，在进行基础卷积计算后，初始化一个空列表存储最后的卷积的结果，对p个（w,b）,计算特征图，循环计算出每个输入特征图对应的卷积结果，将所有卷积结果相加，最后使用torch.stack()对所有Zp进行堆叠。的示例图，也就是局部连接，传统的神经网络是全连接的，权值很多，计算量很大。：滤波器在滑动的过程中，输入在变化，但中间滤波器(filter)的权重（即每个神经元连接数据窗口的权重）是固定不变的，这个权重不变即所谓的CNN中的。将低级特征组合起来。

2023-11-15 23:16:01 47

原创 nndl 作业6

边缘检测：边缘是图像的边缘（轮廓），目的是识别并突出这些轮廓，都使用特定的卷积核（也称为滤波器）来检测边缘。卷积核的主要特征是它们在水平和垂直方向上的权重不同，检测出水平和垂直的特征。锐化：增强图像的细节和清晰度。通常使用一个包含正负值的卷积核来实现。这个卷积核的权重通常会在中心位置为正，而在其他位置为负。模糊：减少图像的细节和噪声，通常使用一个包含正值的卷积核来实现。这个卷积核的权重通常会在中心位置为最大，并在逐渐远离中心的过程中逐渐减小。实验总结：

2023-11-05 20:52:39 57 1

原创 nndl 作业5

偏置b是神经网络调整数据点到激活函数的偏移量，对偏置b进行正则化可能会影响模型的泛化能力，正则化是为了防止过拟合，过拟合是模型因为微小变化发生较大差异，由于w原因，所以在神经网路中对b进行正则化，对结果并没有影响，神经网络中如果发生较大偏差是因为w，而不会因为b，偏差是曲率，曲率由w决定。零均值化是一种数据预处理的方法，通过减去数据集的均值，将数据的均值为0，用于归一化数据，使得其分布更接近标准正态分布，提高泛化能力，神经网络训练，梯度计算基于输入和输出差值的，输入和输出均值接近，梯度更大，不便于训练。

2023-11-01 21:03:15 91 1

原创 NNDL 作业四

w = [torch.randn(1, 1), torch.randn(1, 1), torch.randn(1, 1), torch.randn(1, 1), torch.randn(1, 1), torch.randn(1, 1), torch.randn(1, 1), torch.randn(1, 1)] #权重初始值。梯度快速下降，收敛速度更快，Relu函数，当输入值小于0时，ReLU函数的输出为0，这意味着ReLU函数可以激活稀疏性，运算量不同导致收敛速度不同。8.权值换为0，观察，总结，陈述。

2023-10-17 20:22:41 45

原创 NNDL 作业3

在Softmax回归的风险函数（公式（3.39））中，如果加上正则化项会有什么影响？防止过拟合，增强泛化能力，在损失函数中加入正则化项，限制参数的大小，模型更加稳定。N是样本的数量，C是类别数量，y是第n个样本的标签，值是0或1，Softmax回归风险函数。是第n个样本的实际值。

2023-10-06 17:14:19 91 3

原创 NNDL 作业2

损失函数是在这个情况下真实值的似然估计，softmax损失意味着真实标签的似然度，分类任务中每个标签之间的距离是没有实际意义的，预测值和标签两个向量之间的平方差不能反映分类问题的优化程度。回归任务是对连续值进行预测（如值为多少），交叉熵损失函数只针对于分类正确的结果，回归任务中需要考虑错误的，需要让回归中的函数满足所有的样本，交叉熵损失函数中的y表示真实值，0或者1，只有两个取值，，计算的是真实值y与预测值f(X)的平方差，计算的是两者之间的差距，非负的对称，连续可导。首先明确分类任务是在多分类任务中。

2023-09-24 21:42:51 69 2

原创 NNDL 作业1 简述深度学习中定义

答：

2023-09-20 20:40:12 334 7

m0_62584837的博客