模型底层优化(2)——参数initialize(初始化)和loss设计

最新推荐文章于 2023-11-04 03:03:35 发布

王sad

最新推荐文章于 2023-11-04 03:03:35 发布

阅读量811

点赞数

分类专栏：推荐系统初始化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_20879591/article/details/104577429

版权

本文探讨了深度学习模型参数初始化的重要性，包括常数、正态分布、均匀分布和Xavier初始化方法，并详细解释了Xavier初始化的原理。同时，总结了回归任务和分类任务中的基本及复杂损失函数，如MSE、MAE、Logloss、Hinge Loss、Focal Loss等，强调了损失函数设计在优化模型性能中的关键作用。

摘要由CSDN通过智能技术生成

参数initialize和loss设计

参数初始化
loss设计

Google的工程师Ali Rahimi在他获得一项大奖之后的发言中称，深度学习成为了今天的炼金术。深度学习除了一些基本的理论保证外，还需要一些黑魔法来帮助模型收敛和学习。参数的初始化和loss设计就是其中比较常用的方法。

参数初始化

由于深度网络的特性，求解最佳参数的任务是非凸的，不能稳定收敛到最小值。所以模型参数的初始化对于收敛的影响很大。有下面几种初始化方法：

1. 常数初始化。

这个是一个错误的示范，由于模型的对称性，如果全部初始化为一个值时，由于参数的更新梯度一致，会导致模型退化，参数失去差异。通常会加入随机项来避免这种情况。实现参照tf.constant_initializer()。

2. 正态分布初始化。

自然界中许多看似随机事件通常都满足正态分布，使用正态分布来初始化参数是一个自然而然的想法。实现参照tf.random_normal_initializer()。由于正态分布的范围为[-∞，+∞]，为避免偶然异常值出现，也可对参数大小进行截断。实现参照tf.truncated_normal_initializer()。

3. 均匀分布初始化。

均匀分布生成的随机数并不是从小到大或者从大到小均匀分布的，这里均匀分布的意义是每次从一组服从均匀分布的数里边随机抽取一个数。实现参照tf.random_uniform_initializer()。

4. Xavier初始化，也称Glorot初始化。

这是本文着重讲解的部分。Xavier初始化方法是一种很有效的神经网络初始化方法，方法来源于2010年的一篇论文《U

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。