এ琳-CSDN博客

原创 NNDL总结

简单总结一下，好多公式啊，没写

2024-01-05 18:36:57 1009 1

原创 NNDL 作业13 优化算法3D可视化

首先声明，我好几个图没整出来，不知道啥原因，求大佬们指点(╥╯﹏╰╥)ง。

2023-12-29 18:36:11 990 3

原创基于双向LSTM模型完成文本分类任务

C:\Users\48163\anaconda3\envs\env_torch\python.exe C:\Users\48163\PycharmProjects\基于双向LSTM模型完成文本分类任务\main.py。训练集样本数： 25000。困扰我一天的错终于解决了。Label: 积极情绪。时间太晚了，明天再分析。

2023-12-28 23:52:19 992 1

Adagrad（Adaptive Gradient）是一种自适应学习率的优化算法，它能够对不同的参数自适应地调整学习率，这使得具有稀疏梯度的问题的训练过程更加高效。Adagrad算法在学习率方面与传统的优化算法相比，采用更为自适应的策略，对于不同的参数，学习率的值也不同。具体来说，Adagrad算法为每个参数维护一个不同的学习率，而这个学习率是根据这个参数以前的梯度来更新的。学习率η决定了每次更新的步长。具有代价函数最大梯度的参数相应地有个快速下降的学习率，而具有小梯度的参数在学习率上有相对较小的下降。

2023-12-25 15:59:54 913

原创 LSTM的记忆能力实验

哈达玛积（逐元素积）

2023-12-21 13:49:23 364

原创梯度爆炸实验

文章目录什么是范数？一、梯度打印函数二、复现梯度爆炸现象三、使用梯度截断解决梯度爆炸问题造成简单循环网络较难建模长程依赖问题的原因有两个：梯度爆炸和梯度消失。一般来讲，循环网络的梯度爆炸问题比较容易解决，一般通过权重衰减或梯度截断可以较好地来避免；对于梯度消失问题，更加有效的方式是改变模型，比如通过长短期记忆网络LSTM来进行缓解。在实验之前先聊一聊范数。什么是范数？范数，是具有“距离”概念的函数。我们知道距离的定义是一个宽泛的概念，只要满足非负、自反、三角不等式就可以称之为距离。范数是一种强化了的

2023-12-18 13:19:27 863 1

原创 NNDL 作业11 LSTM

如果遗忘门接近1，远距离信息被传递，不会丢失，而如果遗忘门接近于0，说明网络对于远距离的信息传递选择了放弃，而不是简单的梯度消息问题，一个是主动一个是被动，是不一样的，遗忘门介于0~1时，时对梯度消失问题的一种改善，而并没有彻底解决。由于总的远距离梯度 = 各条路径的远距离梯度之和，即便其他远距离路径梯度消失了，只要保证有一条远距离路径梯度不消失，总的远距离梯度就不会消失（正常梯度 + 消失梯度 = 正常梯度）。即便梯度越传越弱，那也只是远距离的梯度消失，由于近距离的梯度不会消失，所有梯度之和便不会消失。

2023-12-17 23:45:25 830 2

原创循环神经网络的记忆能力实验

单纯记录一下实验的代码。

2023-12-11 22:04:04 428 1

原创 NNDL 作业10 BPTT

之间既有线性关系，也有非线性关系，并且可以缓解梯度消失问题。对比Numpy、Pytorch实现反向传播算子。时，梯度可能会过大，从而导致梯度爆炸问题。为了解决梯度消失问题，可以引入。手写实现RNN模型前向计算。（GRU）来控制梯度流动。的输入，在计算误差项。

2023-12-10 15:52:24 389

原创 NNDL 作业9 RNN - SRN

nn.RNNCell可以看作是RNN的基础构成单元，它可以接受序列中单步的输入，且必须传入隐藏状态。对于序列中的每个步骤，它都会单独进行计算，并输出该步骤的隐藏状态。这种方式需要手动写循环来处理序列数据的每一个步骤。nn.RNN则可以接受一个序列的输入，它默认会传入全0的隐藏状态，也可以自定义隐藏状态传入。与nn.RNNCell不同，nn.RNN的设计使得用户不需要手动写循环来处理序列数据的每一个步骤，这在实际应用中更为方便。

2023-12-02 22:28:06 970 4

原创 NNDL 作业8 卷积导数反向传播

习题5-2。

2023-11-27 15:57:23 1035

原创 NNDL 作业7 基于CNN的XO识别

一开始我把数据集按3：2分为了训练集和测试集，但是在训练模型时发现，这种划分会导致模型在训练集上学习到的信息量相对较少，从而影响模型的泛化能力，也会导致数据集的利用率较低，影响模型的训练效果。：在一个神经网络中，同一个神经元或者同一层的所有神经元共享相同的权重。则来源于浅层网络与深层网络之间，与低级特征相比，其空间属性更加丰富，但空间信息的特征分辨率较低，通常指的是图像的局部特征，如纹理、形状等。来源于深层网络，富含语义信息，语义信息的特征分辨率比较高，通常指的是图像的全局特征，如物体的类别、语义等。

2023-11-14 21:59:12 131 1

原创 NNDL 作业6 卷积

边缘检测：标识数字图像中亮度变化明显的点，这些点往往是轮廓或边缘。

2023-11-04 23:06:07 78 1

原创 NNDL 作业5 第四章课后题

习题4-1。

2023-10-28 23:41:55 298 1

原创作业4：实现例题中的前馈神经网络

【numpy】需要的函数，反向传播都要自己手写定义，相对来说代码繁琐。【torch】可以调用backward()直接得到与函数相关的参数的梯度，进而进行梯度下降计算，不仅代码写的简单，也保证了正确性。通过结果对比发现，两种结果基本相同。Sigmoid函数：函数将输入的张量（tensor）映射到值域范围为 (0,1) 的区间上。有观察得，使用Sigmoid函数和使用Pytorch自带函数torch.sigmoid()没较为明显的差距。def error(x1, x2, y1, y2): # 损失函数。

2023-10-15 20:35:15 474

原创 NNDL 作业三

Softmax回归中使用的𝐶个权重向量是冗余的，即对所有的权重向量都减去一个同样的向量 𝒗，不改变其输出结果。正则化项会对模型的参数进行惩罚，使得模型的参数变得较小。例如，L2正则化项会对所有参数的平方进行惩罚，而L1正则化项则会对所有参数的绝对值进行惩罚。这种惩罚会使得模型的复杂度降低，从而降低其出现过拟合的风险。总的来说，加入正则化项后，Softmax回归的风险函数会更倾向于选择那些参数较小的模型，这有助于提高模型的泛化能力。，使得参数不会太大，便不会造成溢出之类的错误发生，同时也会抑制过拟合。

2023-09-29 16:38:54 91 2

原创 NNDL 作业2 第二章课后题

（平方损失函数计算的是预测值和真实值之差的平方，如果有两个真实值和预测值之差的绝对值相同，那么他们的损失函数的值就是相同的，这样就无法将这两个数据分开，所以，平方损失函数不适用于分类问题。精确率、召回率都是对每个类进行性能估计，宏平均和微平均都是计算分类算法在所有类别上的总体精确率、召回率和F1值，但是宏平均针对的是每一类，微平均针对的是每一个样本。（交叉熵损失函数计算的是样本属于不同类别的概率，通过比较不同类别的概率对其分类，这个概率值是离散的，不适用于分类问题。，这在分类问题中是不合适的。

2023-09-23 00:16:11 255 2

原创 NNDL 作业1

人工智能就是让机器的行为看起来就像是人所表现出的智能行为一样。

2023-09-20 21:34:09 87 3

m0_67043426的博客