深度学习模型的目的:
1 最小化误差
拟合训练数据
2规则化参数
防止过拟合
l0规范
创造更加稀疏的权重矩阵,使模型更加的简单,求解困难
l1范数
曼哈顿范数
视觉:绝对偏差和(Sum of AbsoluteDifference,SAD)
误差:平均绝对误差(MAE,mean absolute error)
深度学习:中使所有权重之和
使用场景,使权重更加稀疏化
而正由于L1会倾向于让某些theta为0,所以,仅仅从优化函数的角度,他倾向于忽视某些特征,从而不一定达到全局最优
l2范数
所有范数中最流行的是l2-norm。总体上,它用于工程和科学领域的方方面面。基本定义如下,l2-norm:
它的平方形式,在计算机视觉领域为平方差的和(Sumof Squared Difference,SSD)
它最出名的应用是在信号处理领域,为均方误差(Mean-SquaredError,MSE),它被用来计算两个信号的相似度,质量(quality)和关系。MSE为:
使用 L2则会充分考虑每一个特征值,更容易达到全局更优
softmax+交叉熵=softmax loss
只在真实样本处预测,不论其他的值。
案是真实标签对应的位置的那个值是1,其他都是0。所以结果为:
以e为底数