Tensorflow之构建自己的图片数据集TFrecords（一）

最新推荐文章于 2023-10-23 17:28:24 发布

临江轩

最新推荐文章于 2023-10-23 17:28:24 发布

阅读量2.9k

点赞数 5

文章标签： Tensorflow学习制作数据集

本文链接：https://blog.csdn.net/weixin_39880579/article/details/79589159

版权

接触Tensorflow一个月以来，总算有点感觉。最近一边查文档一边自己摸索，利用Tensorflow构建了自己的图片数据集TFrecords。接下来，我将步骤及用到的相关知识一一记录下来，望大家指点。

用到的原始数据形式截图如下：（用的是fgvc-aircraft-2013b数据集）

制作这个数据集我分成了两步：

第一步：将图片按照给定txt里面的标签复制到指定文件夹中；

第二步：将指定文件夹里的图片制作成Tfrecord格式。

第一步先贴代码：

# -*- coding:utf-8 -*-
import shutil
import os.path

data_label_dir = "./data/images_variant_trainval.txt"
f = open(data_label_dir,'r')
s = f.readlines()
i = 1
dict = {}
for line in s:
    dict[line[:7]] = line[8:-1]
print(dict)
for key,value in dict.items():
    dir = "./images_variant_trainval/%s/" % (value)
    if not os.path.exists(dir):
        print("目录 ""%s"" 不存在！自动创建该目录..." % dir)
        os.makedirs(dir)
    jpgfile = "./data/images/%s" % (key + '.jpg')
    newfile = "./images_variant_trainval/%s/%s" % (value, key + '.jpg')
    shutil.copyfile(jpgfile,newfile)
    i += 1
    while (i%10000) == 0:
        print("程序正在运行中...")
f.close()

接下来逐行解释：

第一部分：

# -*- coding:utf-8 -*-
import shutil
import os.path

第一行代码：

# -*- coding:utf-8 -*-

PY文件当中是不支持中文的，即使你输入的注释是中文也不行，为了解决这个问题，就需要把文件编码类型改为UTF-8的类型，输入这个代码就可以让PY源文件里面有中文了。

建议你写代码之前都把这句话加上，因为不管是注释还是弹出消息提示，免不了的要输入中文，所以这个基本是必须的。

（具体参考：点击打开链接）

第二行代码：

import shutil
import os.path

shutil 名字来源于 shell utilities，有学习或了解过Linux的人应该都对 shell 不陌生，可以借此来记忆模块的名称。该模块拥有许多文件（夹）操作的功能，包括复制、移动、重命名、删除等等。（具体参考：点击打开链接）

os模块包含普遍的操作系统功能。本文用它是为了查找文件路径。（具体参考：点击打开链接）

第二部分：

data_label_dir = "./data/images_variant_trainval.txt"
f = open(data_label_dir,'r')
s = f.readlines()
i = 1
dict = {}
for line in s:
    dict[line[:7]] = line[8:-1]
print(dict)

第一行代码：

data_label_dir = "./data/images_variant_trainval.txt"

将txt地址传给参数data_label_dir。该文件中含有图片的名称和对应的标签，其txt文件部分如图所示：（前者为图片名称，后者为标签）

第二行代码：

f = open(data_label_dir,'r')

以只读方式打开文件。（关于文件打开方式详见：点击打开链接）

第三行代码：

s = f.readlines()

该方法每次读出一行内容。（关于Python中read()、readline()和readlines()三者间的区别和用法参考：点击打开链接）

剩余代码：

dict = {}
for line in s:
    dict[line[:7]] = line[8:-1]
print(dict)

建立空字典。对于txt文件中的每一行建立键值对。dict[line[:7]] = line[8:-1]表示提取图片名称为键，对应型号为值。空格算一个字符，从左往右数，第一个字符为1；从右往左数，第一个字符为-1。

结果如图所示：

第三部分：

for key,value in dict.items():
    dir = "./images_variant_trainval/%s/" % (value)
    if not os.path.exists(dir):
        print("目录 ""%s"" 不存在！自动创建该目录..." % dir)
        os.makedirs(dir)

第一行代码：读取字典中的键值对。

第二行代码：以值（飞机型号）为文件名传递给参数dir。

剩余代码：如果该地址不存在，则创建该地址的文件夹。

结果如图所示：

碰到的问题：在text中有两个飞机型号为F-16A/B，F/A-18，反斜杠"\"是DOS和Windows系统里代表文件目录的符号,不能在文件名里使用,而出现斜杠"/"时,系统会等同为反斜杠"\"。如果一定要用斜杠作文件名的话,只能用全角符号里的斜杠,在把中文输入法里的月牙点成满月里就可以用了。但是我试过之后在后续查找时又出现了问题，因此就没改，创建了子文件夹。

第四部分：

    jpgfile = "./data/images/%s" % (key + '.jpg')
    newfile = "./images_variant_trainval/%s/%s" % (value, key + '.jpg')
    shutil.copyfile(jpgfile,newfile)
    i += 1
    while (i%10000) == 0:
        print("程序正在运行中...")
f.close()

第一二行代码：将旧文件地址传给参数jpgfile，将新文件夹地址传给newfile。

第三行代码：将旧文件夹中的图片复制给新文件夹中。

第四五六行代码：每完成10000张图片的复制，输出”程序正在运行中”，以提示程序正在运行

剩余代码：关闭文件。

关于将图片数据集制作成TFrecords格式详见文章《Tensorflow之构建自己的图片数据集TFrecords（二）》点击打开链接

临江轩

关注

5
点赞
踩
27

收藏

觉得还不错? 一键收藏
8
评论
Tensorflow之构建自己的图片数据集TFrecords（一）

接触Tensorflow一个月以来，总算有点感觉。最近一边查文档一边自己摸索，利用Tensorflow构建了自己的图片数据集TFrecords。接下来，我将步骤及用到的相关知识一一记录下来，望大家指点。用到的原始数据形式截图如下：（用的是fgvc-aircraft-2013b数据集）制作这个数据集我分成了两步：第一步：将图片按照给定txt里面的标签复制到指定...
复制链接

扫一扫