《百面机器学习》读书笔记
损失(目标)函数
二分类问题Loss
0-1损失(非凸,难以优化)--> hingle损失(fy=1时不可导,无法用梯度下降优化)--> logistic损失(任意点都惩罚)--> 交叉熵损失
回归问题Loss
平方损失、绝对值损失
优化算法
梯度下降法(GD)
遍历所有的样本,求梯度然后更新参数,计算量大
随机梯度下降法(SGD)
利用单个样本的损失求梯度,然后更新参数,方差大,不稳定
小批量梯度下降法(BSGD)
遍历一个batch的样本,求梯度然后更新参数。相当于在GD和SGD之间的折中方案。
其他主流方法
动量方法,AdaGrad方法,Adam方法(主流方法,用的最多)
L1正则化与稀疏参数原理
L1正则化可以使模型稀疏化,让更多的参数等于0,降低模型的内存占用,同时提高模型的泛化能力。