预处理:
归一化某个特征的值会被映射到[0,1]之间
标准化得到的特征满足均值为0,标准差为1的正态分布(标准正态分布)
归一化和标准化都可以消除量纲的影响,使得原本可能分布相差较大的特征对模型有相同权重的影响 量纲:不同特征量化的分布范围不同,导致特征对输出的影响不同
处理图像数据,每个像素点是一个特征,特征分布为[0,255],不同特征的分布是一样的,不存在量纲的问题,所以归一化或标准化是不必要的,而只需要做零均值化---x-x
损失函数:(应该说的代价函数)
L1损失: L1对离群点相对鲁棒 ,但其导数为常数,且在0处不可导;这会导致训练后期预测值与真实值差异很小时,L1难以继续收敛
L2损失/平方损失: L2对离群点非常敏感,因为L2范数将误差平方化(如果误差大于1,则误差会放大很多),最终造成梯度爆炸
Huber Loss:结合L1的健壮性和L2的快速收敛,[-α,α]为L2,其余为L1
Hinge 损失函数:让某个正确分类的样本距离分割线超过1并不会有任何奖励,从而使分类器可以更专注于整体的误差
交叉熵损失(CrossEntropy Loss):
信息量:信息量的大小与信息发生的概率成反比,设某一事件发生的概率为P(x),其信息量表示为: log表示以e为底的自然对数。
信息熵:每次可能结果的概率乘以其结果的总和。
相对熵/KL散度:随机变量有两个单独的概率分布P(x)和Q(x),则我们可以使用KL散度来衡量这两个概率分布之间的差异
交叉熵:将KL散度公式拆开:
前者 H(p(x))表示信息熵,后者即为交叉熵,KL散度 = 交叉熵 - 信息熵。交叉熵公式表示为:。
交叉熵损失函数:二分类: y 表示实际的标签, a 表示预测的输出。多分类:由于yi是一个one-hot 向量,除了目标类为1之外其他类别上的输出都为0,因此上式也可以写为多分类交叉熵也称为 Softmax Loss 或者 Categorical Cross Entropy Loss
交叉熵在分类问题中常常与是标配,softmax将输出的结果进行处理,使其多个分类的预测值和为1,再通过交叉熵来计算损失。
infoNCE:
K+为真值q得正对