常见的图像重建损失为:SSIM、MSE 和余弦相似度损失;
(a) MSE 损失(Mean Squared Error Loss)
- 定义:MSE 损失计算重建图像(image_constructor)与原始图像(ori_image)之间的像素级均方误差:
其中 NNN 是像素总数,reconirecon_ireconi 和 originalioriginal_ioriginali 分别是重建和原始图像的像素值。
- 是否全局:是的,MSE 是全局损失,因为它对整个图像的每个像素进行均方误差计算,忽略空间位置的差异。MSE 更关注全局相似性(低频信息),对局部细节(如人脸的高频纹理)敏感度较低。
(b) SSIM 损失(Structural Similarity Index)
- 定义:SSIM 衡量两个图像的结构相似性,基于亮度、对比度和结构三个方面,通常通过滑动窗口计算局部统计量,然后全局平均:
其中 SSIM 公式为:
- μx,μy 是均值,σx,σy 是标准差,σxy 是协方差,C1,C2 是常数。
- 是否全局:SSIM 默认是全局损失,因为它通常对整个图像或通过滑动窗口计算局部 SSIM 后取全局平均(如 pytorch_ssim.SSIM 的默认行为)。但 SSIM 部分考虑局部结构(通过窗口),对高频细节(如边缘)有一定敏感性,但仍以全局相似性为主。
(c) 余弦相似度损失(Cosine Similarity Loss)
- 定义:余弦相似度损失计算两个特征图(例如 fpn_features['res2-res5'] 和 ori_fpn_features)之间的余弦相似性:
其中 feature1 和 feature2 是展平后的特征向量。
- 是否全局:是的,余弦相似度损失是全局损失,因为它对整个特征图的分布进行相似性计算,忽略空间位置的局部差异。余弦损失更关注特征的全局方向性和分布(低频或语义信息),对局部高频纹理(如车牌边缘)敏感度较低。