数据预处理与tensorboard数据可视化

最新推荐文章于 2023-04-27 11:37:05 发布

ccbka

最新推荐文章于 2023-04-27 11:37:05 发布

阅读量539

点赞数

分类专栏： tensorflow

tensorflow 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

图像是人们喜闻乐见的一种信息形式，“百闻不如一见”，有时一张图能胜千言万语。图像处理是利用计算机将数值化的图像进行一定（线性或非线性）变换获得更好效果的方法。Photoshop，美颜相机就是利用图像处理技术的应用程序。深度学习最重要的应用领域就是计算机视觉（CV, Computer Vision），历史上，MNIST 手写体数字识别和 ImageNet 大规模图像识别均得益于深度学习模型，取得了相比传统方法更高的准确率。从 2012 年的 AlexNet 模型开始，随后的 VGG, GoogLeNet, ResNet 等模型不断刷新 ImageNet 图像识别准确率纪录，甚至超过了人类水平。为了获得良好的识别效果，除了使用更好的模型，数据集的预处理也是十分重要的一项内容，最常用的方法有尺度缩放、随机切片、随机翻转、颜色变换等。

本文介绍如何使用 TensorFlow 完成图像数据的预处理，以及如何使用 tensorboard 工具将图像数据进行可视化。在使用 TensorFlow 实现图像识别、目标检测时会经常用到本文介绍的内容。

首先看下输入图像，是一只猫：

TensorFlow 读取图片数据代码：

reader = tf.WholeFileReader()

key, value = reader.read(tf.train.string_input_producer(['cat.jpg']))

image0 = tf.image.decode_jpeg(value)

用过 Caffe 的读者可能会非常熟悉上面的图片（位于 caffe/examples/images/cat.jpg）。原图尺寸为 360 x 480。

图像缩放

代码：

resized_image = tf.image.resize_images(image0, [256, 256], \

method=tf.image.ResizeMethod.AREA)

其中 method 有四种选择：

ResizeMethod.BILINEAR ：双线性插值

ResizeMethod.NEAREST_NEIGHBOR ：最近邻插值

ResizeMethod.BICUBIC ：双三次插值

ResizeMethod.AREA ：面积插值

读者可以分别试试，看看缩放效果。

图像裁剪

代码：

cropped_image = tf.image.crop_to_bounding_box(image0, 20, 20, 256, 256)

图像水平翻转

代码：

flipped_image = tf.image.flip_left_right(image0)

除此之外还可以上下翻转：

flipped_image = tf.image.flip_up_down(image0)

图像旋转

代码：

rotated_image = tf.image.rot90(image0, k=1)

其中 k 值表示旋转 90 度的次数，读者可以尝试对原图旋转 180 度、270 度。

图像灰度变换

代码：

grayed_image = tf.image.rgb_to_grayscale(image0)

从上面看到，用 TensorFlow 实现上述图像预处理是非常简单的。TensorFlow 也提供了针对目标检测中用到的 bounding box 处理的 api，有兴趣的读者可以翻阅 api 文档（https://www.tensorflow.org/versions/r1.0/api_docs/python/image/working_with_bounding_boxes）学习。

为了方便查看图像预处理的效果，可以利用 TensorFlow 提供的 tensorboard 工具进行可视化。

使用方法也比较简单，直接用 tf.summary.image 将图像写入 summary，对应代码如下：

img_resize_summary = tf.summary.image('image resized', tf.expand_dims(resized_image, 0))

cropped_image_summary = tf.summary.image('image cropped', tf.expand_dims(cropped_image, 0))

flipped_image_summary = tf.summary.image('image flipped', tf.expand_dims(flipped_image, 0))

rotated_image_summary = tf.summary.image('image rotated', tf.expand_dims(rotated_image, 0))

grayed_image_summary = tf.summary.image('image grayed', tf.expand_dims(grayed_image, 0))

merged = tf.summary.merge_all()

with tf.Session() as sess:

summary_writer = tf.summary.FileWriter('/tmp/tensorboard', sess.graph)

summary_all = sess.run(merged)

summary_writer.add_summary(summary_all, 0)

summary_writer.close()

运行该程序，会在 /tmp/tensorboard 目录下生成 summary，接着在命令行启动 tensorboard 服务：

打开浏览器，输入 127.0.0.1:6006 就可以查看 tensorboard 页面了（Ubuntu 自带的 firefox 打开 tensorboard 时不显示图像，可以更换为 Chrome 浏览器）。

TensorBoard 图像可视化效果

利用 tensorboard 还可以查看图像直方图

为了显示直方图，需要在代码中增加一行 summary ：

histogram_summary = tf.summary.histogram('image hist', image0)

完整代码如下：

ccbka

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据预处理与tensorboard数据可视化

图像是人们喜闻乐见的一种信息形式，“百闻不如一见”，有时一张图能胜千言万语。图像处理是利用计算机将数值化的图像进行一定（线性或非线性）变换获得更好效果的方法。Photoshop，美颜相机就是利用图像处理技术的应用程序。深度学习最重要的应用领域就是计算机视觉（CV, Computer Vision），历史上，MNIST 手写体数字识别和 ImageNet 大规模图像识别均得益于深度学习模型，取得了相
复制链接

扫一扫

专栏目录