机器学习-优化算法

《百面机器学习》读书笔记

损失(目标)函数

二分类问题Loss

0-1损失(非凸,难以优化)--> hingle损失(fy=1时不可导,无法用梯度下降优化)--> logistic损失(任意点都惩罚)--> 交叉熵损失

 

 

回归问题Loss

平方损失、绝对值损失

优化算法

梯度下降法(GD)

遍历所有的样本,求梯度然后更新参数,计算量大

随机梯度下降法(SGD)

利用单个样本的损失求梯度,然后更新参数,方差大,不稳定

小批量梯度下降法(BSGD)

遍历一个batch的样本,求梯度然后更新参数。相当于在GD和SGD之间的折中方案。

其他主流方法

动量方法,AdaGrad方法,Adam方法(主流方法,用的最多)

L1正则化与稀疏参数原理

L1正则化可以使模型稀疏化,让更多的参数等于0,降低模型的内存占用,同时提高模型的泛化能力。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值