几度雨停393-CSDN博客

原创 NNDL 作业13 优化算法3D可视化

在老师的版本上加上了Nesterov算法（对Momentum进行改进，计算速度时先对当前位置进行一次预更新，然后再根据预更新的位置计算速度）2.随着时间变化，AdaGrad变慢但RMSprop仍然保持稳定平缓。3.RMSprop与AdaGrad在轨迹方向上基本一致。1.RMSprop在初始阶段比AdaGrad慢。

2024-01-01 19:44:57 872

优化方法总结：Adam那么棒，为什么还对SGD念念不忘?(SGD，Adagrad，Adadelta，Adam，Adamax，Nadam)_为何vit用adam-CSDN博客这篇文章是作者转载的，但是转载原文已经删除，所以附上这篇文章的链接）从几篇怒怼Adam的paper来看，多数都构造了一些比较极端的例子来演示了Adam失效的可能性。这些例子一般过于极端，实际情况中可能未必会这样，但这提醒了我们，理解数据对于设计算法的必要性。

2023-12-23 14:24:05 761 1

原创 NNDL 作业11 LSTM

1. 这次作业感悟最大的是对于LSTM反向传播的推导过程，推导过程我听了清晰图解LSTM、BPTT、RNN的梯度消失问题_哔哩哔哩_bilibili和5.LSTM如何缓解梯度消失（公式推导）_哔哩哔哩_bilibili这两个视频讲解，第一个视频主要是讲解LSTM解决梯度消失的原因，对LSTM的过程进行了动图演示，公式主要参考第二个视频的讲解明白了公式的来龙去脉，根据讲解画出了反向传播的路径图并写出了推导公式。2.关于第二问的代码我参考了DL Homework 11-CSDN博客和。

2023-12-18 17:26:36 903

原创 NNDL 作业10 BPTT

return y循环神经网络（内含LSTM、GRU实战）_simplernn实例-CSDN博客相比传统的CNN来说，LSTM更擅长于处理长时间的记忆。LSTM的原理：与RNN的区别：1. 除了输入的xt和ht-1之外，还加入了一个长时记忆单元c，而h控制的是一个短时的记忆。2. 还有门控机制：输入门、遗忘门、输出门，通过三个门来控制信息的流转。输出有多少取决于门控值！我们称门控程度为：门控值，其可以控制阈值。

2023-12-11 11:40:53 225 1

原创 nndl 作业9 RNN - SRN

RNN1. 为什么batch维不是在0维度上。这里需要理解RNN的运算特点，RNN网络每次送入的数据，维度恰好就是[b, h dim]，循环送入seq len次。

2023-12-04 15:36:06 957

原创 nndl作业8 卷积导数反向传播

通过这次作业，我对卷积交换性的证明有了进一步的了解，参考老师给出的证明过程，有了大概框架，自己证明了一遍。学会了如何计算卷积神经网络的时间空间复杂度。对于仿射变换有了自己的理解：对于将卷积操作重写为仿射变换形式的过程，我的理解是：用卷积核W对输入X进行卷积，仿射变换的每一行对应着输入X中的所有元素（顺序为从上到下，从左到右），卷积核卷积到的部分就填写上卷积核对应位置的数值，没有卷积到的部分就填写为0。（如有错误，请斧正）【23-24 秋学期】NNDL 作业8 卷积导数反向传播-CSDN博客。

2023-11-26 15:12:16 203 1

原创深度学习作业7

1. 对于CNN中的各层之间参数的对应关系我不是很清楚，于是我在官网上搜索各个层的函数的用法并总结。:（我在官网上搜索了函数功能：主要参数：in_channels（int）：输入图像中的通道数out_channels（int）：卷积产生的通道数kernel_size（int或tuple）：卷积内核的大小：（主要参数：kernel_size（Union[int，Tuple[int，int]]）-窗口的最大值超级详细的torch.nn.Linear()函数讲解-CSDN博客。

2023-11-13 17:42:40 114

原创卷积神经网络（1）卷积算子（代码部分）

5. 分别用自定义卷积算子和torch.nn.Conv2d()编程实现下面的卷积运算。2. 自定义带步长和零填充的二维卷积算子。4. 自定义卷积层算子和汇聚层算子。1. 自定义二维卷积算子。3. 实现图像边缘检测。

2023-11-12 12:11:49 128 1

原创深度学习作业六

1. 我深刻学习到了不同的卷积核提取不同的特征这句话，我认为卷积核可以看作是一种模板，它通过对图像进行卷积运算，能够提取出图像中与该模板相匹配的特征。例如，一个卷积核对图像中的边缘特征更加敏感，而另一个卷积核对图像中的纹理特征更加敏感。因此，通过设计不同的卷积核，可以提取出图像中不同的特征。2. 在网站上可以更加直观的了解到卷积的过程可以通过调整不同的卷积核来体会它的作用，同时，也可以通过这个网站查看自己运行的结果是否正确。3. squeeze()可以去掉尺寸为1的维度。squeeze()

2023-11-05 13:51:53 76 1

原创深度学习作业5

通过完成这次作业，我有以下几点体会：1.我对偏置b的作用有了更深的理解，偏置b的主要作用是偏移。对b正则化作用很小，不如直接对w进行正则化。2.梯度爆炸和梯度消失一般都出现在深层神经网络中，原因主要是激活函数的选择不恰当，模型不稳定等。如果出现梯度消失问题增加学习率可以适当缓解，但是治标不治本。梯度消失的解决方法我在题目4-8的回答中已经给出。3.前馈神经网络的参数数量主要由权重W和偏置b构成。计算时可以分为输入--->第一层隐藏层，隐藏层之间，以及最后一层隐藏层--->输出，最后计算偏置的思路计算。

2023-10-28 16:42:08 117 1

原创深度学习作业四

对比numpy和pytorch实现，可以看出两者实现的结果并没有明显差别。在numpy实现中，我主要对手推公式进行实现。pytorch则直接调用backward()函数实现反向传播，在pytorch实现中，需要把所有变量和值都设成张量。numpy：pytorch：可以看出两者结果基本相同。结果一直报错，于是我借鉴了老师的博客。

2023-10-17 11:18:44 106

原创深度学习作业3

Softmax回归中使用的𝐶个权重向量是冗余的，所有权重向量都减去一个同样的向量，输出结果不变。权重衰减可以解决 softmax 回归的。其实就是用正则项惩罚参数。因此，Softmax回归往往需要使用正则化来约束其参数。此外，我们还可以利用这个特性来避免计算Softmax函数时在。对于一个K维向量，𝐱=[x1 ,⋯,𝑥𝐾]，Softmax的计算公式为。，使得参数不会过大，不会造成溢出之类的错误，同时也防止过拟合。加入正则化后，在更新参数时每次需要减去。

2023-10-10 21:11:50 60 1

原创深度学习作业2

假设分类问题的类别是1,2,3 那么对于一个真实类别为2的样本X，模型的分类结果是 1 或 3，平方损失函数得到的结果都一样，显然不适合。该分类函数除了让正确的分类尽量变大，还会让错误的分类变得平均，但实际在分类问题中这个调整是没有必要的，错误的分类不必处理。但是对于回归问题来说，这样的考虑就显得很重要了，回归的目标是输出预测值，而如果预测值有偏差，是一定要进行调整的。交叉熵是信息论中的一个重要概念，主要用于度量两个概率分布间的差异性，交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度，通过。

2023-09-21 17:16:03 65

原创深度学习作业一

当这个模型训练好以后，我们并不会用这个训练好的模型处理新的任务，我们真正需要的是这个模型通过训练数据所学得的参数，例如隐层的权重矩阵。端到端指的是输入是原始数据，输出是最后的结果，原来输入端不是直接的原始数据，而是在原始数据中提取的特征，这一点在图像问题上尤为突出，因为图像像素数太多，数据维度高，会产生维度灾难，所以原来一个思路是手工提取图像的一些关键特征，这实际就是就一个降维的过程。特征工程是将原始数据转化成更好的表达问题本质的特征的过程，使得将这些特征运用到预测模型中能提高对不可见数据的模型预测精度。

2023-09-20 21:58:00 88 3

qq_62572945的博客