tf.image.decode_jpeg（别名tf.io.decode_jpeg）函数工作原理分析

RSMung

已于 2024-05-09 17:45:19 修改

阅读量1k

点赞数 3

分类专栏：深度学习文章标签： python 人工智能深度学习 tensorflow 计算机视觉

于 2023-05-18 22:58:16 首次发布

本文链接：https://blog.csdn.net/lvdoujack/article/details/130755431

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1 问题提出

最近在阅读某个论文的源代码时，发现作者在读取图像数据时没有使用PIL.Image或opencv库，而是使用了tf.image.decode_jpeg，代码节选如下：

# tf1中的函数, 用于读取文件
# tf2中该函数更改为了tf.io.read_file
image_contents = tf.read_file(img_path)

# tf.image.decode_jpeg别名tf.io.decode_jpeg， 用于将JPEG编码的图像解码为uint8张量
# channels参数设置返回的张量的通道数量
image = tf.image.decode_jpeg(image_contents, channels=3)

在这里加载的原始数据是灰度数据，即通道数为1。

然而作者为了使用预训练的VGG16模型，在加载数据时将通道数channels参数设置为了3。

因为预训练的VGG16模型在ImageNet数据集上进行的预训练，而ImageNet的单张图片数据是形状为[3, 224, 224]的矩阵，这意味着预训练的VGG16模型的结构要求输入数据的通道数为3。

所以在使用预训练的VGG16模型时，如果处理的数据是灰度数据，需要额外处理将通道数变换为3。

我了解到的做法有4种：

（1）使用一个卷积核为1的卷积（Conv 1X1）将灰度图像的通道数增大为3

（2）处理预训练的VGG16的第一个卷积的参数，将三通道的权重参数求和

例如第一个卷积是

Conv2d(3, 64, kernel_size=(4, 4), stride=(1, 1), padding=(1, 1))

那么权重矩阵就是64个[3, 4, 4]的矩阵，即形状为[64, 3, ,4, 4]的矩阵

将第2个维度的参数求和，则权重矩阵变换为形状为[64, 1, ,4, 4]的矩阵

（3）将灰度图在第一个维度复制三遍，则图像数据从[1, h, w]变换为[3, h, w]

（4）使用伪彩色处理算法将灰度图转换为彩色图像，从而将图像数据从[1, h, w]变换为[3, h, w]

一般是通过查表法或者其他映射函数将灰度值映射到指定的R，G，B值

【OpenCV 例程300篇】203. 伪彩色图像处理_opencv neser_youcans_的博客-CSDN博客NASA 公布了蟹状星云（Crab Nebula ）的观测图像。茫茫太空，距离我们几亿光年的宇宙真是这样绚丽迷人吗？NASA 专家撰文指出，蟹状星云彩色照片实际上人工合成的图像，这是不是暗示照片中的彩色是伪造的？伪彩色图像在形式和视觉表现为彩色图像，但其所呈现的颜色并非图像的真实色彩重现，仅仅是各颜色分量的像素值合成的结果。..................https://blog.csdn.net/youcans/article/details/125298385

图像分析——伪彩色图像、heatmap图像 | 码农家园一、Opencv 伪彩色图像最重要的是cv2.applyColorMap(heatmap, cv2.COLORMAP_JET)，将np.unit8格式的矩阵转化为colormap，第二个参数有很多种配色方案，上面这...https://www.codenong.com/cs106899632/

进而我就产生了一个疑问：

如果channels参数设置为3，那么在函数tf.image.decode_jpeg的处理过程中具体是以上四种做法的3还是4呢?

我复现该论文使用的pytorch框架，搞清楚tf.image.decode_jpeg的工作原理对我来说很重要，而官方文档里面没有提到此事，因此我开始尝试解析。

tf.image.decode_jpeg函数的文档链接如下：

TensorFlow函数教程：tf.io.decode_jpeg_w3cschooltf.io.decode_jpeg函数别名： tf.image.decode_jpeg tf.io.decode_jpegtf.io.decode_jpeg( contents, channels=_来自TensorFlow官方文档，w3cschool编程狮。https://www.w3cschool.cn/tensorflow_python/tf_io_decode_jpeg.html tf.io.decode_jpeg | TensorFlow v2.2.0https://tensorflow.google.cn/versions/r2.2/api_docs/python/tf/io/decode_jpeg

2 理论分析

如果tf.image.decode_jpeg使用的第3种方法，那么三个通道的像素值是一样的。

如果使用的第4种方法，那么三个通道的像素值大概率是不一样的。

因此只需要将tf.image.decode_jpeg处理后的数据的像素值输出看看就知道了

3 实验代码以及结果

测试代码如下：

test.jpg是一张灰度图像

# 观察tf.image.decode_jpeg的工作原理
# 图像路径
current_img_path = './test.jpg'
# 读取图像文件
raw_img_data = tf.io.read_file(current_img_path)
# 获取像素值矩阵
# dct_method='INTEGER_ACCURATE'是为了保证读取出来的像素值与Image.open保持一致
# 不加的话, tf的API可能会为了加速读取而造成值的不准确, 进而限制模型训练中的上限性能
# 参考资料:
# https://www.coder.work/article/6243772
image1 = tf.image.decode_jpeg(raw_img_data, channels=3, dct_method='INTEGER_ACCURATE').numpy()   # 使用tf.image.decode_jpeg函数，通道参数设置为3
# 使用tf.image.decode_jpeg函数，通道参数根据原始数据自行确定
image2 = tf.image.decode_jpeg(raw_img_data, dct_method='INTEGER_ACCURATE').numpy()
# 使用Image.open读取图像，指定为灰度图
image3 = np.array(Image.open(current_img_path).convert("L"))
# 在数据末尾增加一个维度
image3 = np.expand_dims(image3, axis=2)

# 查看矩阵形状
print(image1.shape)   # (288, 352, 3)
print(image2.shape)  # (288, 352, 1)
print(image3.shape)  # (288, 352, 1)

在运行时使用debug模式，在最后一行打上断点

再使用pycharm的SciView观察三个矩阵的数据（也可以使用print函数+矩阵切片的方式观察数据）

发现tf.image.decode_jpeg使用的第3种方法，三个通道的像素值是一样的

截图如下:

image1矩阵数据如下