背景
很多医疗影像数据集(尤其 3D 造影)的格式都是无损的 .dcm 或 .nii 格式,存储着每一个体素位置的具体值。压缩技术也常常只是用 gzip 将 .nii 压缩为 .nii.gz。相较于有损压缩图片格式,这种数据存储方式会占用大量的存储空间。
这里以 BraTS 2019 数据集 为例进行说明,几种不同形态的数据存储格式的大小如下:
- 无压缩的 .nii 格式:26G
- 7zma 无损压缩:2.1G
- gzip 无损压缩:2.7G
- 图像样本使用质量为 90 的 JPEG,分割样本使用 PNG:522M
但问题是像 JPEG 一样的有损图像压缩算法,是否会对模型的训练和最终性能有影响呢?尤其是医疗影像本来就受信息量少和边缘模糊的影响,JPEG 造成的伪影是否又会加剧这一点?
JPEG 压缩概述
JPEG 压缩算法的具体技术细节不是我们所关心的。这里我们主要讨论 JPEG 质量(0~100)对于图片实际质量和体积的影响。
很多信息源都会认为,90 以上的质量为“高质量”,80-90 为中质量,70-80 为低质量。根据 GIMP Chat</