库昊kkhh-CSDN博客

原创 NNDL 作业13 优化算法3D可视化

2.在上题第一个图中只有“动量”算法：Momentum在更新梯度过程中逃离了鞍点，其他四个算法都在鞍点停滞，而这题中却只有SGD陷入鞍点，其他的算法逃离了鞍点，说明不同的场景、不同的数据会导致算法的优劣性不同，需要结合具体的实际情况来进行判断，不存在绝对最好的优化器。1.左侧第一个图Momentum变化幅度大，跟据累计动量更新梯度变化幅度大，不太稳定，SGD在后期变化较为慢，准确率下降，其他三个梯度更新方向准确率较高，速度也较快，优化程度好。优点：图中曲线速刚开始很快，然后由又快变慢，逐渐平滑，

2023-12-31 11:43:06 924

原创 NNDL 作业12 优化算法2D可视化

轨迹形成原因：图中轨迹上下震荡呈之字形向中心波动，幅度越来越小更加密集，这是由于SGD在更新过程中非常频繁，梯度的方向并不总是指向最小值的方向，这可能导致SGD在优化过程中走了一些低效的路径，当图像在y方向变化很大，而在x方向变化很小时，SGD可能无法直接找到最优路径，因此只能迂回往复地寻找，从而形成了之字形的路径。优点：能实现学习率的自动更改，避免多次重新设置学习率，对低频的参数做较大的更新，对高频的做较小的更新，对于稀疏的数据处理很好。可能会出现震荡，也可能出现梯度爆炸或消失问题。

2023-12-24 12:44:13 840

原创 NNDL 作业11 LSTM

LSTM网络通过引入门控机制来避免梯度消失，在输入门、遗忘门、输出门通过网络的学习，在长期依赖时可以使结果接近1，并且在梯度推导过程中是通过相加来求得结果，求梯度连乘项可以很好的传递梯度，可以很好的避免梯度消失问题。pytorch内部函数，RNN、RNNcell和LSTM、LSTMcell函数参数一致，本身函数与cell函数相比都多了layer层的概念。- feature_len:特征的维度。- hidden_len:隐藏层的个数。- hidden_len:隐藏层维度。- h:最后一步所有层的隐藏状态。

2023-12-18 22:29:58 366 1

原创 NNDL 作业10 BPTT

NNDL 作业10 BPTT

2023-12-10 19:42:33 317

原创 NNDL 作业9 RNN - SRN

1. nn.RNNCell在循环网络中将序列分开处理，分成不同的时刻，相较于nn.RNN,处理数据比较灵活，但计算麻烦，RNNCell是一个计算单元，不涉及层数的概念RNNCell()只能接受序列中单步的输入，且必须传入隐藏状态，参数input_size – 输入x中预期特征的数量hidden_size – 隐藏状态下的特征数量h偏差 – 如果False，则该层不使用偏差权重b_ih和b_hh。默认值：True非线性 – 使用的非线性。可以是'tanh'或'relu'。默认：'tanh'

2023-12-04 21:51:05 851

原创 NNDL 作业8 卷积导数反向传播

从反向传播开始，利用相邻层之间delta误差的递推公式求得每一层的delta误差利用每一层的delta误差求出损失函数对该层参数的导数将求得的导数加到该batch数据求得的导数之和上(初始化为0)，跳转到步骤3，直到该batch数据都训练完毕利用一个batch数据求得的导数之和，根据梯度下降法对参数进行更新，直到达到指定的迭代次数（CNN的反向传播算法实在没有啥头绪，然后我对别人的梳理了一遍，推导总结了一下）

2023-11-27 22:37:05 782 1

原创 NNDL 作业6 卷积

1.卷积：顾名思义，是一个函数卷切滑动，和另一个函数不断乘积，是两个矩阵通过特定的函数运算，一个参数矩阵乘一个输入向量得到一个输出向量，得到新的矩阵，实际上是一组线性转移，通过不同的卷积关系，可以提取出不同的特征。卷积提取特征就是通过卷积核与图像矩阵不断迭代计算，保留有用的信息，去除无用的信息，通过计算公式和不同的矩阵数据权值，把想要的特征信息放大提取，通过不同的卷积核可以提取不同的特征信息。4.特征选择：从所有的特征中筛选出对算法有益处的相关特征，过滤掉对算法无意义、不能提供信息的无关特征和冗余特征。

2023-11-07 19:05:44 33

qq_62563369的博客

原创 NNDL 作业13 优化算法3D可视化

原创 NNDL 作业12 优化算法2D可视化

原创 NNDL 作业11 LSTM

原创 NNDL 作业10 BPTT

原创 NNDL 作业9 RNN - SRN

原创 NNDL 作业8 卷积导数反向传播

原创 NNDL 作业6 卷积

原创深度学习 NNDL 作业五

原创深度学习NNDL作业三

原创深度学习 NNDL 作业二

空空如也

空空如也