TensorFlow 图像数据预处理及可视化

最新推荐文章于 2022-12-29 15:13:54 发布

CZ626626

最新推荐文章于 2022-12-29 15:13:54 发布

阅读量2k

点赞数

分类专栏：深度学习文章标签：图像处理

本文链接：https://blog.csdn.net/CZ626626/article/details/69240477

版权

深度学习专栏收录该内容

22 篇文章 1 订阅

订阅专栏

注：文章转自《慢慢学TensorFlow》微信公众号

图像是人们喜闻乐见的一种信息形式，“百闻不如一见”，有时一张图能胜千言万语。图像处理是利用计算机将数值化的图像进行一定（线性或非线性）变换获得更好效果的方法。Photoshop，美颜相机就是利用图像处理技术的应用程序。深度学习最重要的应用领域就是计算机视觉（CV, Computer Vision），历史上，MNIST 手写体数字识别和 ImageNet 大规模图像识别均得益于深度学习模型，取得了相比传统方法更高的准确率。从 2012 年的 AlexNet 模型开始，随后的 VGG, GoogLeNet, ResNet 等模型不断刷新 ImageNet 图像识别准确率纪录，甚至超过了人类水平。为了获得良好的识别效果，除了使用更好的模型，数据集的预处理也是十分重要的一项内容，最常用的方法有尺度缩放、随机切片、随机翻转、颜色变换等。

本文介绍如何使用 TensorFlow 完成图像数据的预处理，以及如何使用 tensorboard 工具将图像数据进行可视化。在使用 TensorFlow 实现图像识别、目标检测时会经常用到本文介绍的内容。

首先看下输入图像，是一只猫：
这里写图片描述
TensorFlow 读取图片数据代码：
reader = tf.WholeFileReader()
key, value = reader.read(tf.train.string_input_producer([‘cat.jpg’]))
image0 = tf.image.decode_jpeg(value)
图像缩放:

代码：
resized_image = tf.image.resize_images(image0, [256, 256], \
method=tf.image.ResizeMethod.AREA)
其中 method 有四种选择：
ResizeMethod.BILINEAR ：双线性插值
ResizeMethod.NEAREST_NEIGHBOR ：最近邻插值
ResizeMethod.BICUBIC ：双三次插值
ResizeMethod.AREA ：面积插值

图像裁剪:
这里写图片描述
代码：
cropped_image = tf.image.crop_to_bounding_box(image0, 20, 20, 256, 256)

图像水平翻转:
这里写图片描述
代码：
flipped_image = tf.image.flip_left_right(image0)
除此之外还可以上下翻转：
flipped_image = tf.image.flip_up_down(image0)

图像旋转:
这里写图片描述

代码：
rotated_image = tf.image.rot90(image0, k=1)
其中 k 值表示旋转 90 度的次数，读者可以尝试对原图旋转 180 度、270 度。
图像灰度变换:
这里写图片描述
代码：
grayed_image = tf.image.rgb_to_grayscale(image0)