自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 NNDL 作业13

速度:cs231的环境下,Adam具有今次RMSprop的速度,一位内Adam是对RMSprop+动量法的优化,但是,在逃离局部最优点后,动量法的惯性原则,会让Adam成曲线运动,而非RMSprop的类直线运动,降低速度。​​​​​​​速度:通过对轨迹的描述,我们明确发现在局部最优点附近的,点的更新较小,速度慢,原理局部最优点的地方速度较快。所以在二维空间中表现为曲线轨迹且越来越密的下降轨迹。​​​​​​​轨迹:类似动量法,Nesterov是动量法的优化,在cs231的环境下,轨迹与动量法大致相同。

2024-01-03 20:26:05 343 1

原创 NNDL 作业12

2.收敛速度快解决了AdaGrad算法的早停问题: 特别是在循环神经网络中,收敛速度较快,并且引入了衰减率,不会一直累积梯度平方,对于过去的梯度,会相应的衰减,解决了AdaGrad的早衰问题。轨迹形成原因:Adam的收敛轨迹图和其他的相比,明显要稳定,基本上是呈直线,或者前期收敛幅度较大,后期逐渐平稳,朝着最优点不断移动。由于y轴方向上的梯度较大,因此刚开始变动较大,但是后面会根据前面较大的变动进行调整,减小更新的步伐,导致y轴方向上的更新程度被减弱,“之”字形的变动程度衰减,呈现稳定的向最优点收敛。

2023-12-25 12:01:57 852

原创 NNDL 作业11

其他的参数也是大差不差。然后在更新过程中,梯度会乘以一个常数,这样就可以避免梯度消失的问题。,又因为上述偏导与ft前面三项值有关,所以他的值就不会局限于[0,1],所以他会大于1,所以缓解了梯度消失。2.门控单元可以决定遗忘多少梯度,他们可以在不同的时刻取不同的值。1.cell状态的加法更新策略使得梯度传递更恰当,使得梯度更新有可能大于1。其实这些参数几乎都是使用链式法则进行梯度更新的,以其中一个参数为例。在推导时候,朋友给推了一个视频,感觉还是挺不错的。其中的参数也是查阅其他资料以及同学的博客弄懂的。

2023-12-18 15:13:43 387 1

原创 NNDL 作业10

解决方法为可以引入门控机制,加入门控机制来控制信息的累计速度,包括有选择地加入新的信息,并有选择地遗忘之前累积的信息。或使用长短期记忆网络。为在第k时刻函数g()的输入,在计算上面的误差项时,梯度可能会过大,从而导致梯度爆炸问题。.当t-k 比较大时,梯度也变得很大,因此会造成系统不稳定,造成梯度爆炸问题。而当引入公式(6.50),令。

2023-12-11 16:42:48 45 1

原创 NNDL 作业9

首先查资料得到nn.RNN和nn.RNNCell都是PyTorch中的循环神经网络层,但它们之间有一些细微的差别。nn.RNN是一个高层次的接口,它将RNN单元和时间步骤的处理逻辑封装在一起。它可以处理整个序列,并返回最后一个时间步骤的输出或所有时间步骤的输出。nn.RNN的输入是一个三维张量,分别表示序列长度、batch大小和输入维度。nn.RNN的输出也是一个三维张量,分别表示序列长度、batch大小和输出维度。nn.RNNCell是nn.RNN的基本组成部分,它只处理一个时间步骤的输入。

2023-12-04 15:16:12 34

原创 NNDL 作业8

①时间复杂度:256 × 100 × 100 × 256 × 3 × 3 = 5898240000空间复杂度:256 × 100 × 100 = 2560000②时间复杂度:64 × 100 × 100 × 256 + 256 × 100 × 100 × 64 × 3 × 3 = 1638400000空间复杂度:64 × 100 × 100 + 256 × 100 × 100 = 3200000。

2023-11-22 15:09:01 140 1

原创 NNDL 作业6

自己的语言卷积、卷积核、特征图、特征选择、步长、填充、感受野卷积是一种数学运算,它是两个函数之间的一种数学操作,通常用符号“*”表示。卷积的定义可以分为连续卷积和离散卷积两种。在连续卷积中,卷积是通过对两个函数进行积分得到的,而在离散卷积中,卷积是通过对两个离散序列进行求和得到的。他其实更多描述的是一个过程,一个数学过程,如加法,乘法之类。可以将图像(二维)或者信号(一维) f(.)矩阵函数,通过另一个矩阵函数g(.)的操作,进行一些数学关系上的运算而得到新的函数矩阵关系h(.)。

2023-11-06 15:37:13 50

原创 23---24 NNDL 作业二

我们要明确分类问题的概念:在二分类问题中 y = { + 1 , − 1 } ,在 C分类问题中 y = { 1 , 2 , 3 , ⋅ ⋅ ⋅ , C }可以看出分类问题输出的结果为离散的值。分类问题中的标签,是没有连续的概念的。,我们可以看出交叉熵损失函数针对只分类正确的预测结果,和分类错误的预测结果无关,而在回归中,考虑错误是极其必要的,需要让回归的函数尽可能满足所有的样本包括错误的样本,所以交叉地损失函数不适用回归问题。是真实分布的概率,是模型通过数据计算出来的概率估计。

2023-09-24 12:17:38 43

原创 23-24 NNDL 作业一

定义:人工智能(Artificial Intelligence),简称AI。它是研究、开发用于模拟、延申和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是研究使用计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,主要包括计算机实现智能的原理、制造类似于人脑智能的计算机,使计算机能实现更高层次的应用。人工智能将涉及到计算机科学、心理学、哲学和语言学等学科。人工智能是智能学科的重要组成部分,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

2023-09-24 11:51:05 37

原创 深度学习-----pytorch中张量介绍以及如何对数据进行预处理

而在我看来张量其实是多维向量数组的集合,能够让数据以更高维形式出现。它与numpy库的区别在于numpy属于python库,主要在数学方面使用;它没有自动求导功能;主要在CPU上运行,不能直接利用GPU加速计算。而tensor属于pytorch库,主要在深度学习和神经网络中使用;它有自动求导功能,可以方便地进行梯度计算和反向传播;支持CUDA的图形处理器 (GPU) 上运行,并利用GPU的并行计算能力加速深度学习任务。总而言之,为什么在深度学习中使用张量:一是一些对张量的操作在GPU上执行非常快;

2023-09-24 11:24:47 149

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除