1 L1和L2 正则化的区别
L1 是模型各个参数的绝对值之和,L2 为各个参数平方和的开方值,L1 更趋向于产生少量的特征,其他特征为0,最优的参数值很大概率出现在坐标轴上,从而导致产生稀疏的权重矩阵,而L2 会选择更多的矩阵,但是这些矩阵趋向于0
2 Loss Function 有哪些,怎么用?
平方损失(预测问题),交叉熵(分类问题),hinge 损失(SVM 支持向量机),CART 回归树的残差损失
3 线性回归的表达式,损失函数
线性回归y=wx+b,w和x 可能是多维的,线性回归的loss 函数为平方损失函数
一般会要求反向求导推导