深度学习拾遗

最新推荐文章于 2023-04-15 14:42:36 发布

江海成

最新推荐文章于 2023-04-15 14:42:36 发布

阅读量578

点赞数

本文链接：https://blog.csdn.net/qingyang666/article/details/83311971

版权

本文探讨深度学习中的关键超参数，包括学习率、批次大小、优化器选择和迭代次数，以及激活函数的作用和类型。学习率对模型收敛至关重要，优化器如Adam能加速收敛。激活函数如sigmoid、tanh和relu引入非线性，解决复杂问题。同时，文章还介绍了泊松分布和指数分布的概念。

摘要由CSDN通过智能技术生成

深度学习：hinton bp算法，李飞飞，吴恩达，黄广斌，路奇

深度学习优化的超参数：1）学习率
学习率（learning rate或作lr）是指在优化算法中更新网络权重的幅度大小。学习率可以是恒定的、逐渐降低的，基于动量的或者是自适应的。不同的优化算法决定不同的学习率。当学习率过大则可能导致模型不收敛，损失loss不断上下震荡；学习率过小则导致模型收敛速度偏慢，需要更长的时间训练。通常lr取值为[0.01,0.001,0.0001]
（2）批次大小batch_size
批次大小是每一次训练神经网络送入模型的样本数，在卷积神经网络中，大批次通常可使网络更快收敛，但由于内存资源的限制，批次过大可能会导致内存不够用或程序内核崩溃。bath_size通常取值为[16,32,64,128]
（3）优化器optimizer
目前Adam是快速收敛且常被使用的优化器。随机梯度下降(SGD)虽然收敛偏慢，但是加入动量Momentum可加快收敛，同时带动量的随机梯度下降算法有更好的最优解，即模型收敛后会有更高的准确性。通常若追求速度则用Adam更多。
（4）迭代次数
迭代次数是指整个训练集输入到神经网络进行训练的次数，当测试错误率和训练错误率相差较小时，可认为当前迭代次数合适；当测试错误率先变小后变大时则说明迭代次数过大了，需要减小迭代次数，否则容易出现过拟合。
（5）激活函数
在神经网络中，激活函数不是真的去激活什么，而是用激活函数给神经网络加入一些非线性因素，使得网络可以更好地解决较为复杂的问题。比如有些问题是线性可分的&