dataset读取不定尺寸图片的tfrecord文件

青天白鹭

于 2019-07-23 17:51:00 发布

阅读量788

点赞数 2

分类专栏：算法深度学习

本文链接：https://blog.csdn.net/u012617944/article/details/97003782

版权

本文介绍了如何处理包含不同尺寸图像的tfrecord文件。在生成tfrecord时，保存了图像的shape信息，以便在读取时能够正确还原图像的维度。在使用dataset读取时，通过解析函数parse_example()来处理这些图像特征，避免了因直接reshape导致的错误。关键在于正确处理tensor的resize操作，确保其维度匹配。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.问题描述：

转载请注明~
大多数情况下，我们会在生成tfrecord文件之前加载图片数据时，就将图片尺寸处理好，例如尺寸reshape为[224,224,3]，然后存储在tfrecord中。
这种方式，优点是避免很多后续shape uncompatible问题；缺点是，这会限制网络模型输入，每修改一次模型输入shape都要重新生成tfrecord文件。
针对这种情况，我总结一种dataset读取不同尺寸图像数据的tfrecord文件，并指出了容易出bug的地方。

2.定义生成tfrecord的特征

这部分注意的是，保存图像信息时记得保存图像的shape信息，因为每张图像尺寸不同，后面解析时用shape还原图像tensor维度。(因为tensor的reshape，resize等操作只在相同tensor shape时才有效，否则会报错！！)

def convert_to_TFRecord(imgpath_lst,label_lst,outfile):
    tfrecord_writer = tf.python_io.TFRecordWriter(outfile)
    for i, [imgpath,label] in enumerate(zip(imgpath_lst, label_lst)):
        print("NO{}".format(i))
        imgdata = Image.open(imgpath)
        img_arr = np.asarray(imgdata)
        shape = img_arr.shape
        imgdata = imgdata.tobytes()

最低0.47元/天解锁文章