dabulalala-CSDN博客

原创 NNDL 作业13 优化算法3D可视化

1. 函数3D可视化分别画出和的3D图。

2023-12-31 13:44:00 385 1

解决了AdaGrad的早衰问题，对于具有嘈杂或稀疏梯度的问题，也特别有效。：随着训练的进行，AdaGrad会累积历史梯度的平方和，导致学习率不断减小。在鱼书上有：RMSprop不再将所有的梯度进行一视同仁的相加，而是逐渐地遗忘过去的梯度，在做加法运算时将新梯度的信息更多的反应出来。需要进行配置，这可能会使调整变得更加复杂。：由于学习率的自适应调整，AdaGrad在训练初期可使用较大的学习率，有助于收敛速度的提升。：SGD的收敛速度很快，但是需要调整学习率，否则可能导致模型无法收敛或收敛速度过慢。

2023-12-24 12:44:10 866

原创 NNDL 作业11 LSTM

LSTM中通过门控机制解决梯度问题，遗忘门、输入门和输出门是非0就是1的，并且三者之间都是相加关系，梯度能够很好的在LSTM传递，减轻了梯度消失发生的概率，门为0时，上一刻的信息对当前时刻无影响，没必要接受传递更新参数了。在反向传播中，需要更新的参数依旧是w,u,b,只不过在长短程循环网络中多加入了门控装置，使得w,u,b在输入门、输出门、遗忘门各有不同。推导LSTM网络中参数的梯度，并分析其避免梯度消失的效果。实现LSTM算子，可参考实验教材代码。3. 使用nn.LSTM实现。

2023-12-17 17:28:09 404 1

原创 NNDL 作业10 BPTT

习题6-1P 推导RNN反向传播算法BPTT.注：diag的含义：习题6-2 推导公式(6.40)和公式(6.41)中的梯度．习题6-3 当使用公式(6.50)作为循环神经网络的状态更新公式时，分析其可能存在梯度爆炸的原因并给出解决方法．公式(6.50)如下使用上式进行状态更新的优点是：使h(t),h(t-1)既有线性关系，也有非线性关系，既增强了模型的表示能力，也可以缓解梯度消失问题。

2023-12-10 13:46:58 419 1

原创 NNDL 作业9 RNN - SRN

序列到序列（Sequence-to-Sequence，简称Seq2Seq）是指一类机器学习算法，主要用于将一个序列映射到另一个序列，通常用于自然语言处理任务中，如机器翻译、对话系统和摘要生成等。序列是指一个有序的元素集合，这些元素可以是字符、词语、句子或其他任何形式的数据。在序列中，每个元素都有特定的位置和顺序。这周学习了简单循环网络，使用numpy实现了一个SRN,在进行序列到序列的源代码分析时，也了解了seq2seq的结构。5.谈一谈对“序列”、“序列到序列”的理解。（4）使用nn.RNN实现。

2023-12-03 20:46:38 428 1

原创 NNDL 作业8 卷积导数反向传播

等宽卷积：输入输出图像的大小不变，在步长为1的情况下，两端补零P=（K-1）/2。− 1个空洞，在不增加参数的情况下，来增加卷积核的大小，同时增加输出单元感受野。在两侧各添零，补零的意义是能让核，能从补零后的矩阵的第一个非零位置开始卷积。可以看出利用1*1卷积核可以降低网络的时间和空间复杂度。空洞卷积：在卷积核的每两个元素之间插入。首先是给出卷积的一般形式。

2023-11-26 14:24:38 459 1

原创 NNDL 作业7 基于CNN的XO识别

这次实验主要解决了xo数据集的分类，体会到了卷积神经网络的整体大致过程，卷积层的功能，如何利用卷积核提取图像特征，并将它提取出的信息传递下去，以及提高训练效率的池化层。随着近年来运算能力越来越强，如果运算资源足够支撑不做汇聚，很多网络的架构的设计往往就不做汇聚，而是使用全卷积，卷积从头到尾，看看做不做得起来，看看能不能做得更好。因为在卷积神经网络中，卷积层不止有一层，在底层卷积层中，得到的的确是局部的低级特征，但在更高层会将局部的信息综合起来，就得到了全局的信息。共2000张图片，X、O各1000张。

2023-11-13 21:44:44 97

原创 NNDL 作业6 卷积

可以形象的来理解卷积，在一个信号或图像上滑动一个卷积核，通过卷积操作，可以得到一组新的特征。感受野：特征图上的一点对应输入图像上的区域，图像在经历多次卷积处理后，特征图上的一点可以对应原来图像上的更多点，就称它的感受野大。特征选择：不同的卷积核可以被用来刻画不同选择性，比如高斯滤波器可以实现平滑降噪，还有的卷积核可以用来提取边缘特征等等。步长：是行和列的滑动步数，是卷积核在原图像或信号上的每次移动距离大小，步长不一样，得到的特征图大小也不一样。plt.title('原图')二、探究不同卷积核的作用。

2023-11-05 10:04:46 65 1

原创 NNDL 作业5 第四章课后题

所谓，就是将原来的数据减去所有数据的均值，即此时数据均值为0。在假设输入x恒大于0的情况下，神经元的激活值也会一直大于0，这会导致梯度的值变小，参数更新速度慢。而对输入x进行零均值化处理后，神经元的激活值也会在0附近波动，这会使得梯度的值更大，从而使得参数收敛速度更快。如果不想进行零均值化，也可以将，使得激活值处于0附近，但是这也只是理论上说，此时我们已经假设输入没有负值。

2023-10-29 17:35:55 129

原创【23-24 秋学期】NNDL 作业2

不适用于分类问题的原因：首先，分类问题的标签是离散的值，标签之间没有关系，这时如果要用平方损失函数处理分类问题，通过计算各个样本之间的距离来衡量损失程度是不合适的。例如分类一个标签集合为{1,2,3}的数据集，对于一个真实值为1的样本，它被错分到2,3的损失程度应该是一样的（标签之间没有关系），但是根据平方损失函数，它被错分入2,3的损失函数分别为1/2,2，看出显然是不合适的。损失函数是用来估量模型的预测值与真实值的不一致程度，损失函数越小，模型的鲁棒性越好。，在博客上正确书写格式。

2023-09-26 20:22:57 116 1

m0_72169474的博客