模型底层优化(2)——参数initialize(初始化)和loss设计

本文探讨了深度学习模型参数初始化的重要性,包括常数、正态分布、均匀分布和Xavier初始化方法,并详细解释了Xavier初始化的原理。同时,总结了回归任务和分类任务中的基本及复杂损失函数,如MSE、MAE、Logloss、Hinge Loss、Focal Loss等,强调了损失函数设计在优化模型性能中的关键作用。
摘要由CSDN通过智能技术生成


Google的工程师Ali Rahimi在他获得一项大奖之后的发言中称,深度学习成为了今天的炼金术。深度学习除了一些基本的理论保证外,还需要一些黑魔法来帮助模型收敛和学习。参数的初始化和loss设计就是其中比较常用的方法。

参数初始化

由于深度网络的特性,求解最佳参数的任务是非凸的,不能稳定收敛到最小值。所以模型参数的初始化对于收敛的影响很大。有下面几种初始化方法:

1. 常数初始化。

这个是一个错误的示范,由于模型的对称性,如果全部初始化为一个值时,由于参数的更新梯度一致,会导致模型退化,参数失去差异。通常会加入随机项来避免这种情况。实现参照tf.constant_initializer()。

2. 正态分布初始化。

自然界中许多看似随机事件通常都满足正态分布,使用正态分布来初始化参数是一个自然而然的想法。实现参照tf.random_normal_initializer()。由于正态分布的范围为[-∞,+∞],为避免偶然异常值出现,也可对参数大小进行截断。实现参照tf.truncated_normal_initializer()。

3. 均匀分布初始化。

均匀分布生成的随机数并不是从小到大或者从大到小均匀分布的,这里均匀分布的意义是每次从一组服从均匀分布的数里边随机抽取一个数。实现参照tf.random_uniform_initializer()。

4. Xavier初始化,也称Glorot初始化。

这是本文着重讲解的部分。Xavier初始化方法是一种很有效的神经网络初始化方法,方法来源于2010年的一篇论文《U

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值