两种优化器SGD&Adam以及损失函数交叉熵损失&MSE&SISDR

本文介绍了优化器Adam和SGD的工作原理,详细讲解了Adam的参数更新公式及其优势。此外,还探讨了学习率衰减在自适应学习率方法中的应用。同时,文章阐述了交叉熵损失函数的概念,包括信息熵、相对熵(KL散度)和交叉熵在机器学习中的作用。最后,提到了用于评估模型性能的SNR、SI-SNR和SI-SDR指标。
摘要由CSDN通过智能技术生成

优化器

Adam
梯度下降法参数更新公式:
θt+1=θt−η⋅∇J(θt)
其中,η是学习率,θt 是第 t 轮的参数,J(θt) 是损失函数,∇J(θt)是梯度。
在最简单的梯度下降法中,学习率 η是常数,是一个需要实现设定好的超参数,在每轮参数更新中都不变,在一轮更新中各个参数的学习率也都一样。
为了表示简便,令 gt=∇J(θt),所以梯度下降法可以表示为:
θt+1=θt−η⋅gt
Adam,是梯度下降法的变种,用来更新神经网络的权重。
Adam 更新公式:


默认值为 η=0.001,β1=0.9,β2=0.999,ϵ=1e−8。其中,β1 和 β2 都是接近 1 的数,ϵ 是为了防止除以 0。gt 表示梯度。
前两行是对梯度和梯度的平方进行滑动平均,即使得每次的更新都和历史值相关。
中间两行是对初期滑动平均偏差较大的一个修正,叫做 bias correction,当 t 越来越大时,1−βt1 和 1−βt2 都趋近于 1,这时 bias correction 的任务也就

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值