都兰（森-CSDN博客

原创 NNDL 作业13

速度:cs231的环境下，Adam具有今次RMSprop的速度，一位内Adam是对RMSprop+动量法的优化，但是，在逃离局部最优点后，动量法的惯性原则，会让Adam成曲线运动，而非RMSprop的类直线运动，降低速度。速度：通过对轨迹的描述，我们明确发现在局部最优点附近的，点的更新较小，速度慢，原理局部最优点的地方速度较快。所以在二维空间中表现为曲线轨迹且越来越密的下降轨迹。轨迹:类似动量法，Nesterov是动量法的优化，在cs231的环境下，轨迹与动量法大致相同。

2024-01-03 20:26:05 343 1

原创 NNDL 作业12

2.收敛速度快解决了AdaGrad算法的早停问题：特别是在循环神经网络中，收敛速度较快，并且引入了衰减率，不会一直累积梯度平方，对于过去的梯度，会相应的衰减，解决了AdaGrad的早衰问题。轨迹形成原因：Adam的收敛轨迹图和其他的相比，明显要稳定，基本上是呈直线，或者前期收敛幅度较大，后期逐渐平稳，朝着最优点不断移动。由于y轴方向上的梯度较大，因此刚开始变动较大，但是后面会根据前面较大的变动进行调整，减小更新的步伐，导致y轴方向上的更新程度被减弱，“之”字形的变动程度衰减，呈现稳定的向最优点收敛。

2023-12-25 12:01:57 852

原创 NNDL 作业11

其他的参数也是大差不差。然后在更新过程中，梯度会乘以一个常数，这样就可以避免梯度消失的问题。，又因为上述偏导与ft前面三项值有关，所以他的值就不会局限于[0,1]，所以他会大于1，所以缓解了梯度消失。2.门控单元可以决定遗忘多少梯度，他们可以在不同的时刻取不同的值。1.cell状态的加法更新策略使得梯度传递更恰当，使得梯度更新有可能大于1。其实这些参数几乎都是使用链式法则进行梯度更新的，以其中一个参数为例。在推导时候，朋友给推了一个视频，感觉还是挺不错的。其中的参数也是查阅其他资料以及同学的博客弄懂的。

2023-12-18 15:13:43 387 1

原创 NNDL 作业10

解决方法为可以引入门控机制，加入门控机制来控制信息的累计速度，包括有选择地加入新的信息，并有选择地遗忘之前累积的信息。或使用长短期记忆网络。为在第k时刻函数g（）的输入，在计算上面的误差项时，梯度可能会过大，从而导致梯度爆炸问题。.当t-k 比较大时，梯度也变得很大，因此会造成系统不稳定，造成梯度爆炸问题。而当引入公式（6.50），令。

2023-12-11 16:42:48 45 1

原创 NNDL 作业9

首先查资料得到nn.RNN和nn.RNNCell都是PyTorch中的循环神经网络层，但它们之间有一些细微的差别。nn.RNN是一个高层次的接口，它将RNN单元和时间步骤的处理逻辑封装在一起。它可以处理整个序列，并返回最后一个时间步骤的输出或所有时间步骤的输出。nn.RNN的输入是一个三维张量，分别表示序列长度、batch大小和输入维度。nn.RNN的输出也是一个三维张量，分别表示序列长度、batch大小和输出维度。nn.RNNCell是nn.RNN的基本组成部分，它只处理一个时间步骤的输入。

2023-12-04 15:16:12 34

原创 NNDL 作业8

①时间复杂度：256 × 100 × 100 × 256 × 3 × 3 = 5898240000空间复杂度：256 × 100 × 100 = 2560000②时间复杂度：64 × 100 × 100 × 256 + 256 × 100 × 100 × 64 × 3 × 3 = 1638400000空间复杂度：64 × 100 × 100 + 256 × 100 × 100 = 3200000。

2023-11-22 15:09:01 140 1

原创 NNDL 作业6

自己的语言卷积、卷积核、特征图、特征选择、步长、填充、感受野卷积是一种数学运算，它是两个函数之间的一种数学操作，通常用符号“*”表示。卷积的定义可以分为连续卷积和离散卷积两种。在连续卷积中，卷积是通过对两个函数进行积分得到的，而在离散卷积中，卷积是通过对两个离散序列进行求和得到的。他其实更多描述的是一个过程，一个数学过程，如加法，乘法之类。可以将图像(二维)或者信号(一维) f(.)矩阵函数，通过另一个矩阵函数g(.)的操作，进行一些数学关系上的运算而得到新的函数矩阵关系h(.)。

2023-11-06 15:37:13 50

原创 23---24 NNDL 作业二

我们要明确分类问题的概念：在二分类问题中 y = { + 1 , − 1 } ，在 C分类问题中 y = { 1 , 2 , 3 ， ⋅ ⋅ ⋅ ， C }可以看出分类问题输出的结果为离散的值。分类问题中的标签，是没有连续的概念的。，我们可以看出交叉熵损失函数针对只分类正确的预测结果，和分类错误的预测结果无关，而在回归中，考虑错误是极其必要的，需要让回归的函数尽可能满足所有的样本包括错误的样本，所以交叉地损失函数不适用回归问题。是真实分布的概率，是模型通过数据计算出来的概率估计。

2023-09-24 12:17:38 43

原创 23-24 NNDL 作业一

定义：人工智能(Artificial Intelligence)，简称AI。它是研究、开发用于模拟、延申和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是研究使用计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，主要包括计算机实现智能的原理、制造类似于人脑智能的计算机，使计算机能实现更高层次的应用。人工智能将涉及到计算机科学、心理学、哲学和语言学等学科。人工智能是智能学科的重要组成部分，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

2023-09-24 11:51:05 37

原创深度学习-----pytorch中张量介绍以及如何对数据进行预处理

而在我看来张量其实是多维向量数组的集合，能够让数据以更高维形式出现。它与numpy库的区别在于numpy属于python库，主要在数学方面使用；它没有自动求导功能；主要在CPU上运行，不能直接利用GPU加速计算。而tensor属于pytorch库，主要在深度学习和神经网络中使用；它有自动求导功能，可以方便地进行梯度计算和反向传播；支持CUDA的图形处理器 (GPU) 上运行，并利用GPU的并行计算能力加速深度学习任务。总而言之，为什么在深度学习中使用张量：一是一些对张量的操作在GPU上执行非常快；

2023-09-24 11:24:47 149

qq_61365328的博客