PSNR
PSNR(峰值信噪比)是图像或视频质量的度量标准,通常用于图像处理和压缩。它衡量信号的最大可能功率与影响其表示准确性的噪声功率之间的比率。PSNR越高,图像或视频的质量就越好。
PSNR以分贝(dB)表示,定义如下:
PSNR = 10 log10(MAX^2 / MSE)
其中MAX是图像的最大可能像素值,MSE是原始图像和压缩图像之间的均方误差。
SSIM
LPIPS
LPIPS (Learned Perceptual Image Patch Similarity)是一种用于衡量两幅图像之间差异的指标。与传统的像素级差异度量方法相比,LPIPS可以更好地模拟人类视觉系统对图像相似性的感知,因此在图像生成、风格转换和图像重建等任务中得到广泛应用。
LPIPS是由美国加州大学伯克利分校的研究人员提出的。其基本思想是,通过深度学习算法学习到一组特征表示,这些特征表示可以反映出人类视觉系统对图像的感知差异。具体地说,LPIPS首先将一幅图像分割成若干个小的图像块(patch),然后使用深度卷积神经网络(CNN)将每个图像块映射到一个高维特征空间中。最后,LPIPS通过计算两幅图像在特征空间中的距离来度量它们之间的差异程度。
LPIPS的优点在于,它可以捕捉到人类视觉系统对图像的高级感知特征,如颜色、对比度、纹理等,这些特征对于传统的像素级度量方法往往是难以捕捉的。此外,LPIPS还可以处理图像尺度和几何变换的差异,因为它在图像块的层面上进行度量,而不是整张图像的层面上。
总之,LPIPS是一种比传统的像素级差异度量方法更加逼近人类视觉系统的图像相似性度量方法,具有广泛的应用前景。
FID
FID分数的计算是通过比较从预训练神经网络(通常是Inception-v3)的最后一层中提取的特征在两组图像之间的差异来计算的。然后,使用Fréchet距离计算这些特征的多元高斯分布之间的距离。
较低的FID分数表明两组图像更相似,而较高的FID分数则表明它们的差异较大。FID通常用于评估生成对抗网络(GAN)的生成质量和多个模型之间的比较。
LDM
LDM(Listening Diagnostics Metrics)是一种用于评估音频同步质量的指标。它是根据音频和视频之间的时间差异来计算的,以评估音频是否与视频同步。LDM是一种绝对测量方法,它可以精确地测量音频和视频之间的时间差异,并且通常用于评估视频编解码器或播放器的性能。
LDM的计算方法是通过比较音频和视频的时间戳来确定它们之间的时间差异。这个时间差异被称为“时间偏移量”,通常以毫秒为单位表示。LDM的值通常在0和1之间,其中1表示完美的同步,而0表示完全不同步。
LDM是一种有用的指标,可以帮助音频和视频制作者确保他们的作品在不同的设备上播放时能够正确地同步。此外,它也可以用于音频和视频技术的研究和开发。
SyncNet
yncNet是一种用于衡量音视频同步性能的指标,它主要用于评估视频中的音频和视频是否同步。SyncNet是通过深度学习模型自动学习音频和视频之间的同步关系,从而预测它们之间的时间偏差或同步误差。
SyncNet的输入是视频和对应的音频,其输出是一个标量值,表示音频和视频之间的时间偏差。如果SyncNet输出的值接近于零,则说明音频和视频是同步的;如果输出的值很大,则说明音频和视频存在严重的同步问题。
SyncNet的主要优点是它可以自动学习音视频同步关系,不需要手动标注同步信息。它还可以在嘈杂的环境下进行鲁棒性评估,因为它可以处理音频和视频中的噪声和变形。因此,SyncNet在音视频同步评估和校正任务中具有广泛的应用价值。
LRSD
与传统的MSE(Mean Squared Error)或PSNR(Peak Signal-to-Noise Ratio)损失函数相比,LRSD考虑了图像的结构信息,因此可以更好地评估图像的感知质量。具体而言,LRSD通过计算图像的Laplacian金字塔来捕捉图像的多尺度结构信息,并计算生成图像和原始图像之间的结构相似性距离,从而量化生成图像的质量。
数据集
FRID https://spandh.dcs.shef.ac.uk//gridcorpus/
LRW https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrw1.html
LRW-1000 https://github.com/VIPL-Audio-Visual-Speech-Understanding/AVSU-VIPL
ObamaSet https://github.com/supasorn/synthesizing_obama_network_training
VoxCeleb2 https://github.com/walkoncross/voxceleb2-download
VOCASET https://voca.is.tue.mpg.de/