深度学习小知识

最新推荐文章于 2023-12-26 10:45:28 发布

吕大娟

最新推荐文章于 2023-12-26 10:45:28 发布

阅读量441

点赞数

本文链接：https://blog.csdn.net/weixin_42855400/article/details/115612471

版权

深度学习再次理解

一、relu激活函数

一言以蔽之，其实，relu函数的作用就是增加了神经网络各层之间的**非线性关系，**否则，如果没有激活函数，层与层之间是简单的线性关系，每层都相当于矩阵相乘，这样怎么能够完成我们需要神经网络完成的复杂任务，

我们利用神经网络去解决图像分割，边界探测，超分辨等问题时候，我们的输入（假设为x），与期望的输出（假设为y）之间的关系究竟是什么？也就是y=f(x)中*，f是什么，我们也不清楚，但是我们对一点很确信，那就是f不是一个简单的线性函数，应该是一个抽象的复杂的关系，那么利用神经网络就是去学习这个关系，存放在model中，利用得到的model去推测训练集之外的数据，得到期望的结果*

深度学习的目的是用一堆神经元堆出一个函数大致的样子，然后通过大量的数据去反向拟合出这个函数的各个参数，最终勾勒出函数的完整形状。

那如果激活函数只是线性函数，那一层层的线性函数堆起来还是线性的，这年头线性函数能干啥呀？
肯定不行，这样整个网络表现能力有限，所以要引入非线性的激活函数进来。

二.学习率和参数更新

optimizer.step()和scheduler.step()的区别
optimizer.step()通常用在每个mini-batch之中，而scheduler.step()通常用在epoch里面,但是不绝对，可以根据具体的需求来做。只有用了optimizer.step()，模型才会更新，而scheduler.step()是对lr进行调整。通常我们有

optimizer = optim.SGD(model.parameters(), lr = 0.01, momentum = 0.9)
scheduler = lr_scheduler.StepLR(optimizer, step_size = 100, gamma = 0.1)
model = net.train(model, loss_function, optimizer, scheduler, num_epochs = 100)

在scheduler的step_size表示scheduler.step()每调用step_size次，对应的学习率就会按照策略调整一次。所以如果scheduler.step()是放在mini-batch里面，那么step_size指的是经过这么多次迭代，学习率改变一次。

————————————————
版权声明：本文为CSDN博主「_rookie_coder」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_20622615/article/details/83150963

三、关于训练集和验证集与测试集的准确率

一般而言数据集会分成三分一个是训练集，一个是验证集，一个是测试集。训练集和验证集是用来观测模型的训练过程，而测试集是模型训练完成之后，一个效果评判，论文放出的准确率都是测试集。除非标明是dev验证集
论文中放的一般是测试集准确率，验证集在训练过程中可以指示当前训练任务的拟合情况，可以评估模型是否欠拟合，但最终还是要看测试集上的表现，测试集可以用于评估模型过拟合的程度。
训练集和验证集都处于模型训练阶段，训练集中的数据是神经网络学习的对象，**验证集用于显示模型训练到某一步时，准确率的大概值。**模型训练时，准确率高高低低，最后一点的训练准确率不一定是最高的，验证集的存在可以挑选最优准确率的模型参数。测试集才是评判训练完的模型性能的数据集。训练集和测试集理论上要符合独立同分布IID原则，但现实数据繁杂，训练集和测试集的分布不可能完全相同，所以就导致训练时的准确率的参考意义不大，不然也不会有什么过拟合和欠拟合了。训练模型的最终目的是对测试集的应用，训练集和验证集都是辅助于训练阶段。

论文中放的一般是测试集准确率，验证集在训练过程中可以指示当前训练任务的拟合情况，可以评估模型是否欠拟合，但最终还是要看测试集上的表现，测试集可以用于评估模型过拟合的程度。