自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 NNDL 作业13 优化算法3D可视化

2.在 上题第一个图中只有“动量”算法:Momentum在更新梯度过程中逃离了鞍点,其他 四个算法都在鞍点停滞,而这题中却只有SGD陷入鞍点,其他的算法逃离了鞍点,说明不同的场景、不同的数据会导致算法的优劣性不同,需要结合具体的实际情况来进行判断,不存在绝对最好的优化器。1.左侧第一个图Momentum变化幅度大,跟据累计动量更新梯度变化幅度大,不太稳定,SGD在后期变化较为慢,准确率下降,其他三个梯度更新方向准确率较高,速度也较快,优化程度好。优点:图中曲线速刚开始很快,然后由又快变慢,逐渐平滑,

2023-12-31 11:43:06 924

原创 NNDL 作业12 优化算法2D可视化

轨迹形成原因:图中轨迹上下震荡呈之字形向中心波动,幅度越来越小更加密集,这是由于SGD在更新过程中非常频繁,梯度的方向并不总是指向最小值的方向,这可能导致SGD在优化过程中走了一些低效的路径,当图像在y方向变化很大,而在x方向变化很小时,SGD可能无法直接找到最优路径,因此只能迂回往复地寻找,从而形成了之字形的路径。优点:能实现学习率的自动更改,避免多次重新设置学习率,对低频的参数做较大的更新,对高频的做较小的更新,对于稀疏的数据处理很好。可能会出现震荡,也可能出现梯度爆炸或消失问题。

2023-12-24 12:44:13 840

原创 NNDL 作业11 LSTM

LSTM网络通过引入门控机制来避免梯度消失,在输入门、遗忘门、输出门通过网络的学习,在长期依赖时可以使结果接近1,并且在梯度推导过程中是通过相加来求得结果,求梯度连乘项可以很好的传递梯度,可以很好的避免梯度消失问题。pytorch内部函数,RNN、RNNcell和LSTM、LSTMcell函数参数一致,本身函数与cell函数相比都多了layer层的概念。- feature_len:特征的维度。- hidden_len:隐藏层的个数。- hidden_len:隐藏层维度。- h:最后一步所有层的隐藏状态。

2023-12-18 22:29:58 366 1

原创 NNDL 作业10 BPTT

NNDL 作业10 BPTT

2023-12-10 19:42:33 317

原创 NNDL 作业9 RNN - SRN

1. nn.RNNCell在循环网络中将序列分开处理,分成不同的时刻,相较于nn.RNN,处理数据比较灵活,但计算麻烦,RNNCell是一个计算单元,不涉及层数的概念RNNCell()只能接受序列中单步的输入,且必须传入隐藏状态,参数input_size – 输入x中预期特征的数量hidden_​​size – 隐藏状态下的特征数量h偏差 – 如果False,则该层不使用偏差权重b_ih和b_hh。默认值:True非线性 – 使用的非线性。可以是'tanh'或'relu'。默认:'tanh'

2023-12-04 21:51:05 851

原创 NNDL 作业8 卷积 导数 反向传播

从反向传播开始,利用相邻层之间delta误差的递推公式求得每一层的delta误差利用每一层的delta误差求出损失函数对该层参数的导数将求得的导数加到该batch数据求得的导数之和上(初始化为0),跳转到步骤3,直到该batch数据都训练完毕利用一个batch数据求得的导数之和,根据梯度下降法对参数进行更新,直到达到指定的迭代次数(CNN的反向传播算法实在没有啥头绪,然后我对别人的梳理了一遍,推导总结了一下)

2023-11-27 22:37:05 782 1

原创 NNDL 作业6 卷积

1.卷积:顾名思义,是一个函数卷切滑动,和另一个函数不断乘积,是两个矩阵通过特定的函数运算,一个参数矩阵乘一个输入向量得到一个输出向量,得到新的矩阵,实际上是一组线性转移,通过不同的卷积关系,可以提取出不同的特征。卷积提取特征就是通过卷积核与图像矩阵不断迭代计算,保留有用的信息,去除无用的信息,通过计算公式和不同的矩阵数据权值,把想要的特征信息放大提取,通过不同的卷积核可以提取不同的特征信息。4.特征选择:从所有的特征中筛选出对算法有益处的相关特征,过滤掉对算法无意义、不能提供信息的无关特征和冗余特征。

2023-11-07 19:05:44 33

原创 深度学习 NNDL 作业五

如果令w=0,b=0,将会使下一层的神经网络中的神经元计算结果都一样,所有梯度也一样,当进行反向传播时,每两层之间的权重更新参数都相同,相当于每一层就一个神经元,没有多层神经网络的意义。反向传播是损失函数对w的偏导梯度,根据不同的w误差影响,来更新参数,经过一轮又一轮的更新参数来缩小误差,如果不随机初始化参数,神经网络无效。而对于激活函数Sigmoid来说,当输入的数据很大时,导数趋近于0,而数据接近0时,如图,Sigmoid函数和Tanh函数在数据过大过小时,导数都趋近于零,梯度接近消失。

2023-10-29 23:22:16 67 1

原创 深度学习NNDL作业三

在softmax回归的风险函数中,如果加上正则化会有什么影响

2023-10-09 21:42:48 40

原创 深度学习 NNDL 作业二

平方损失函数和交叉熵损失函数精确率、召回率、F1值

2023-09-25 23:33:16 61 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除