超参数momentum与weight-decay的作用

最新推荐文章于 2024-01-07 11:54:20 发布

贝猫说python

最新推荐文章于 2024-01-07 11:54:20 发布

阅读量364

点赞数

分类专栏： caffe

caffe 专栏收录该内容

53 篇文章 2 订阅

订阅专栏

转

超参数momentum与weight-decay的作用

2016年10月05日 17:09:46 阅读数：7445

													<span class="tags-box artic-tag-box">
							<span class="label">标签：</span>
															<a data-track-click="{&quot;mod&quot;:&quot;popu_626&quot;,&quot;con&quot;:&quot;momentum&quot;}" class="tag-link" href="http://so.csdn.net/so/search/s.do?q=momentum&amp;t=blog" target="_blank">momentum																</a>
						<span class="article_info_click">更多</span></span>
																				<div class="tags-box space">
							<span class="label">个人分类：</span>
															<a class="tag-link" href="https://blog.csdn.net/u012938704/article/category/6436970" target="_blank">机器学习																</a>
						</div>
																							</div>
			<div class="operating">
													</div>
		</div>
		
	</div>
</div>
<article>
	<div id="article_content" class="article_content clearfix csdn-tracking-statistics" data-pid="blog" data-mod="popu_307" data-dsm="post">
							            <div class="markdown_views">
            <p>一、weight decay（权值衰减）使用的目的是防止过拟合。在损失函数中，weight decay是放在正则项（regularization）前面的一个系数，正则项一般指示模型的复杂度，所以weight decay的作用是调节模型复杂度对损失函数的影响，若weight decay很大，则复杂的模型损失函数的值也就大。</p>

二、momentum是梯度下降法中一种常用的加速技术。对于一般的SGD，其表达式为