02（网络界泥石流）-CSDN博客

原创 NNDL 作业13 优化算法3D可视化

在cs231的实验环境下，Adam算法的速度大致与RMSprop相当，但在逃离局部最优点后，由于动量项的作用，Adam的轨迹会呈现曲线运动，而不是RMSprop的直线运动，这可能会降低速度。在二维空间中，它的轨迹呈现为曲线状，并且沿着轨迹的点分布较为平均，在三维空间中，RMSprop的轨迹呈现为一个平滑的曲面，并且点的分布较为均匀。在二维空间中，它的轨迹靠近局部最优点，点的轨迹分布较为集中和密集，在三维空间中，Momentum的轨迹靠近局部最优点，并且点的轨迹分布较为集中。

2024-01-03 22:06:39 340 1

原创 NNDL 作业12 优化算法2D可视化

Nesterov 方法是动量法的一种改进，它通过提前根据当前的动量更新参数，然后再计算梯度来进行修正。它同时利用梯度的一阶矩估计（动量项）和二阶矩估计（自适应学习率），从而兼顾了收敛速度和参数更新的稳定。由于每次只考虑一个样本，SGD的更新轨迹会表现为噪声较大、震荡幅度较大的情况,每一次的迭代并不是朝着梯度下降最大的方向下降。优点：自适应学习率，相对于 Adagrad 对学习率进行了进一步的修正，使得算法更稳定。缺点：学习率逐渐减小，可能导致较早的参数更新过大，使得算法在后期难以收敛。

2023-12-28 01:05:50 374 1

原创 NNDL 作业11 LSTM

LSTM 网络之所以能够避免梯度消失问题，是因为它的门控机制可以控制信息在时间序列中的流动。遗忘门可以决定是否丢弃过去的状态，输入门可以决定是否接受新的输入，输出门可以决定隐藏状态的输出。总之，LSTM 网络通过门控机制和细胞状态的记忆来解决了传统 RNN 中的梯度消失问题。通过这种方式，LSTM 网络能够更好地捕捉时间序列中的长期依赖关系，提高了模型的性能和效果。通过反向传播算法，我们可以计算出损失函数对于 LSTM 网络中各个参数的梯度，并使用梯度下降算法来更新参数。是上一个时间步的隐藏状态，

2023-12-19 03:24:23 345 1

原创 NNDL 作业9 RNN - SRN

具体来说，nn.RNNCell是RNN的一个单操作，它接受一个输入端的输入和一个隐藏状态作为输入，并输出一个新的隐藏状态。nn.RNNCell可以通过堆叠多个单元来构建多层的RNN。nn.RNN则是通过重复调用nn.RNNCell来实现整个循环过程。它接受一个序列作为输入，并在序列的每个时间步应用nn.RNNCell。nn.RNN还可以支持双向RNN，它在每个时间步同时应用一个前向和一个反向的RNNCell。

2023-12-06 22:12:42 854 1

原创 NNDL 作业8 卷积导数反向传播

在传统的卷积操作中，卷积核的每个元素与输入特征映射中的相应元素进行卷积，从而计算出输出特征映射中的一个元素。在进行等宽卷积时，输入特征映射中的每个元素都有相同数量的与之对应的卷积核元素进行有效计算，并且输出特征映射的尺寸与输入特征映射相同。具体来说，对于膨胀率为D的空洞卷积，卷积核中的每个元素与输入特征映射中以D间隔的元素进行卷积。由于等宽卷积的定义是对输入矩阵和滤波器进行交换的，我们可以得到等式Y=Y′，即等宽卷积的输出矩阵与交换后的输入矩阵和滤波器进行等宽卷积的输出矩阵相等。

2023-11-26 23:45:00 1799 1

原创 NNDL 作业7 基于CNN的XO识别

收获了一波数据集处理的知识灌输，回顾了卷积神经网络流程，更改参数时需要计算，挺费人NNDL 作业7 相关语言解释+基于CNN的XO识别代码复现-CSDN博客pytorch加载自己的图片数据集的两种方法_pytorch中加载自建数据集,数据集组织形式如imagenet,每一个类一个文件夹__-周-_的博客-CSDN博客【精选】NNDL 作业6：基于CNN的XO识别-CSDN博客。

2023-11-13 22:31:26 31

原创 NNDL作业六卷积

但是，这不是一个完全有关图形的卷积，所以只能看出好看了一点，含有数字表示的像素图形（就是那种n*n的矩阵那种）做卷积，将所属g函数所指代部分翻转，会直接明了（不详讲，感兴趣可搜搜了解）读到这，你是否也会小问号，这和平时接触的卷积有什么关系，别急，先别急。

2023-11-06 00:20:46 62

原创 NNDL 作业5 第四章课后题

你进入了国家队，你天天去练习踢足球，你的球技（学习率）确实上去了，但是并没有什么用，你很难进世界杯（依然梯度消失），目前最多凭你一人之力带着球队靠近世界杯一点（减缓梯度消失），但是另一个问题就来了，平时处于沙特阿拉伯下风，这次爆冷，搞突然袭击，那买沙特的人就该批评你不收敛了（虽然但是还是希望接着爆）。当我们说一个优化算法的收敛速度，我们指的是该算法找到最优解的速度。如果你选择直接令W=0.b=0，那么你就相当于站在迷宫的入口，没有任何的线索或方向，你希望直接找到迷宫的出口，而不经过任何的努力和探索。

2023-10-30 00:58:24 149 1

原创 NNDL 作业四

numpy程序实现#sigmoid激活函数#前向传播outh1=sigmoid(h1)#激活o1=outh2*w7+outh1*w5#激活print("前向传播_隐藏层h1,h2:",round(outh1, 5), round(outh2, 5))print("前向传播_预测值o1,o2:",round(outo1, 5), round(outo2, 5))print("损失函数：", round(error, 5))#反向传播并参数更新step = 1。

2023-10-15 23:11:11 45

原创 NNDL作业3

正则项的作用就是 penalize模型根据训练数据可能出现的不良学习行为,比如过于依赖单个特征,此举可以有效降低过拟合的可能性，正则化可以防止模型粘滞在某些神经元或特征上,强迫模型考虑所有特征的综合贡献。通过这个额外的正则化项,模型在优化过程中会趋于让w1和w2趋于0,同时也会避免过度依赖特征x1或x2,从而获得更好的泛化能力。通过约束模型复杂度,正则化可以有效提升模型在测试数据上的表现,也就是泛化能力。这里多加了一个正则化项λ/2(w1^2 + w2^2),其中λ是一个超参数控制正则化的程度。

2023-10-08 18:24:37 30 1

原创 NNDL 作业2

例如，在二分类问题中，我们通常使用 sigmoid（σ(x) = 1 / (1 + e^(-x))）将模型的输出映射到概率分布。分类问题通常涉及到监督学习，即利用已有的标签来训练模型，然后使用训练好的模型对新的数据进行分类预测，通常是。即 P = TP / (TP + FP)，它衡量的是模型预测为正的样本中，实际为正的样本的比例。即 R = TP / (TP + FN)，它衡量的是实际为正的样本中，模型预测为正的样本的比例。F1(微)-(2*P(微)*R(微)/(P(微)+R(微)))：5/9。

2023-09-23 23:45:00 70 1

原创 NNDL作业一

个人理解：机器学习就像是一个会学习的小助手，它通过观察和分析数据，从中找出规律，然后用这些规律来帮助你解决问题。个人理解：人工智能是一个大家族，机器学习是它的一个成员，而深度学习则是机器学习的一个分支。2. 机器学习（Machine Learning, ML）是人工智能的一个子领域，它关注如何通过数据和算法让计算机自动学习和改进性能，而无需进行明确的编程。个人理解：Word2Vec就像是教计算机认识单词的方法一样，通过学习单词的上下文关系，计算机可以学会把相似的单词归为一类，从而更好地理解和处理文本数据。

2023-09-20 21:25:01 42 1

m0_63591032的博客