加速梯度下降的技巧

最新推荐文章于 2023-03-10 16:22:41 发布

诗蕊

最新推荐文章于 2023-03-10 16:22:41 发布

阅读量2k

点赞数

分类专栏：机器学习神经网络文章标签：随机和小批量随机梯度下降正则动量梯度下降

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Katherine_hsr/article/details/80048954

版权

本文探讨了在训练神经网络时，如何通过随机和小批量随机梯度下降、正则化、动量以及学习率调整来改进梯度下降算法，以避免局部最小值和过拟合，加速训练进程并提高模型性能。

摘要由CSDN通过智能技术生成

在用梯度下降的方法训练神经网络时，如果误差曲面本身并不是凸的，那么这个曲面可能包含许多独立于全局最小值的局部最小值，很有可能在局部最小值时训练就停止了，造成结果不佳。另外，即便我们的网络达到了全局最小值也有可能出现过拟合，不能保证模型有很好的泛化性能。下面介绍几种梯度下降的方法。

1.随机和小批量随机梯度下降

标准的梯度下降每次迭代更新所有的训练数据的子集，SGD是每一次迭代中使用每个样本更新一次权重，二mini-batch SGD将使用预定义的一部分样本更新一次权重，通常这部分样本远小于训练样本的总数。因为每次迭代中只使用一部分数据集，所以在训练过程中的计算量将会大大减少，我们的训练速度将会加快。同时，这样随机选取一部分数据集的方法使得优化过程中能够避免局部最小值，并且使用小部分数据集能够有效的防止过拟合，所以能够带来更好的表现。
这里写图片描述

2.正则

正则是通过向损失函数中增加一个表示模型复杂度的值来惩罚模型的复杂性来减少过拟合。在神经网络中，它惩罚较大的权重，因为这可能表明该网络对该权重对应的训练数据过拟合。
使用L2正则化我们可以重写损失函数，将原始神经网络的损失函数表示为L(y, t)，正则化常数表示为 $\lambda$
Lnew(y,t)=L(y,t)&

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

诗蕊 CSDN认证博客专家 CSDN认证企业博客

码龄10年

67: 原创

12万+: 周排名

191万+: 总排名

90万+: 访问

: 等级

4661: 积分

513: 粉丝

626: 获赞

130: 评论

2408: 收藏

私信

关注

热门文章

分类专栏

机器学习 32篇
回归 5篇
Python 28篇
pandas 1篇
分类 8篇
神经网络 9篇
linux 3篇
markdown 1篇
TensorFlow 8篇
numpy 1篇
目标检测 3篇
聚类 2篇
xgboost 2篇
Spark 9篇
计算机视觉 4篇
图像 2篇
TVM 1篇
半监督学习 1篇
Hadoop 2篇
数据库 2篇
MySQL 2篇
keras 2篇
深度学习 4篇

最新评论

h2o-genmodel.jar加载模型编译运行
白辰丶: 代码如下： import java.io.*; import hex.genmodel.easy.RowData; import hex.genmodel.easy.EasyPredictModelWrapper; import hex.genmodel.easy.prediction.*; import hex.genmodel.MojoModel; public class main { public static void main(String[] args) throws Exception { EasyPredictModelWrapper model = new EasyPredictModelWrapper(MojoModel.load("/Users/bc_aqr/Desktop/work/Project/ModelInfer/h2o-genmodel.jar")); RowData row = new RowData(); row.put("AGE", "68"); row.put("RACE", "2"); row.put("DCAPS", "2"); row.put("VOL", "0"); row.put("GLEASON", "6"); BinomialModelPrediction p = model.predictBinomial(row); System.out.println("Has penetrated the prostatic capsule (1=yes; 0=no): " + p.label); System.out.print("Class probabilities: "); for (int i = 0; i < p.classProbabilities.length; i++) { if (i > 0) { System.out.print(","); } System.out.print(p.classProbabilities[i]); } System.out.println(""); } }
h2o-genmodel.jar加载模型编译运行
白辰丶: 你好，我在执行最后一步后出现了报错，OpenJDK 64-Bit Server VM warning: ignoring option MaxPermSize=128m; support was removed in 8.0 Exception in thread "main" java.lang.NullPointerException: entry
Markdown数学符号&公式
AI悦创|编程1v1: Markdown 能不能复制一份出来？想 copy 到笔记里面
常见的六大聚类算法
Lady S: 请问这种动图是怎么画的啊
目标检测模型中的性能评估——MAP(Mean Average Precision)
EDEN_RT: CSDN能不能有个技术审核啊！

大家在看

SSM整合步骤 412

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。