tensorflow数据读入的基础步骤
说实话,每次在跑模型的时候数据集输入网络的形式都让我很头疼,虽然自己会写,但总觉得代码不够简洁漂亮,也经常疑心数据传输的速度问题。所以每次都是去copy别人的数据处理的代码,自己则看的懵懵懂懂的,故在这里记录一下常用的数据输入网络的方式。
1. 输入与标签建立联系–zip
数据集处理的第一步就是建立输入数据与标签间的一一对应关系,下面使用zip()作为示例。
输入:可迭代的对象(列表)
输出:将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。
实例
>>>a = [1,2,3]
>>>b = [4,5,6]
>>>c = [4,5,6,7,8]
>>>zipped = zip(a,b)
[(1, 4), (2, 5), (3, 6)]
>>> zip(a,c)
[(1, 4), (2, 5), (3, 6)]
# 总结:zip将两个或多个列表中对应位置的元素捆绑在一起,最后返回的是一个列表,其长度与输入的最短的列表一致
>>> zip(*zipped)
[(1, 2, 3), (4, 5, 6)]
# zip(*)的功能与zip()相反,可理解为将捆绑的列表元素进行解压
以图像超分辨率模型为例子,输入为低分辨率影像lr_image,那标签就是真实的高分辨率影像hr_image。
第一步,需要读取lr_image和hr_image的存放地址
def get_sorted_image_path(path, ext):
# 获取文件夹下的所有图片地址 并进行排序
ext_regex = "*" + ext # ext=.jpg/.png/.tif
data_root = pathlib.Path(path) # 返回一个path对象,以前os.path中时str
image_paths = list(data_root.rglob(ext_regex)) # 可跨越子文件夹 找到头文件夹下所有ext后缀的图片
image_paths = sorted([str(path) for path in image_paths])
return image_paths
第二步,用zip()生成lr和hr的绑定列表
lr_path = get_sorted_image_path(lr_image_path , ext=".png")
hr_path = get_sorted_image_path(hr_image_path , ext=".png")
# 打包hr和lr的所有地址 并进行shuffle打乱
lr_hr_sorted_paths = list(zip(lr_sorted_paths[:], hr_sorted_paths[:]))
random.shuffle(lr_hr_sorted_paths)
2. 使用tensorflow构建Dataset对象
第一步:生成数据迭代器
tf.data.Dataset.from_tensor_slices的作用和zip()相似,也是将两个或者多个对象的相应位置的元素进行捆绑。但区别在于tf.data.Dataset.from_tensor_slices的输入是元组形式,输出是TensorSliceDataset类型。
ds = tf.data.Dataset.from_tensor_slices((lr_path , hr_path))
# 用来读取图片
def load_and_preprocess_lr_hr_images(lr_path, hr_path, ext=ext):
return load_and_preprocess_image(lr_path, ext), load_and_preprocess_image(hr_path, ext)
# 得到已读入图片的迭代器
lr_hr_ds = ds.map(load_and_preprocess_lr_hr_images, num_parallel_calls=4)
在理解ds.map之前,我们先来看看python中的map()函数的语法:
map(function, iterable, …),即根据提供的函数对指定序列做映射。
第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。
>>> def square(x):# 先定义一个函数
... return x ** 2
...
>>> map(square, [1,2,3,4,5]) # 计算列表各个元素的平方
<map object at 0x100d3d550> # 返回迭代器
>>> list(map(square, [1,2,3,4,5])) # 使用 list() 转换为列表
[1, 4, 9, 16, 25]
>>> list(map(lambda x: x ** 2, [1, 2, 3, 4, 5])) # 使用 lambda 匿名函数
[1, 4, 9, 16, 25]
那么可以发现ds.map()和map()的区别就在于ds.map()中并没有传入数据,而是只传入了先前定义的函数load_and_preprocess_lr_hr_images(可看作对应为map()中的square)。这是因为ds已经是一个TensorSliceDataset了,其自身就包含了数据,因此不需要再额外传入。
tips: 可以看到在ds.map中有一个num_parallel_calls的参数设置,因为我们的电脑一般都是多核的,通过设置调用的核数来加快数据处理的速度,在上文代码中num_parallel_calls=4,即使用4核CPU。
第二步:对得到的Datasset对象进行预处理
在数据读取完成之后,我们还需要对数据进行打乱和分割batch分割。
lr_hr_ds = lr_hr_ds .shuffle(buffer_size=image_count) # buffer_size等于数据集大小确保充分打乱
lr_hr_ds = lr_hr_ds .repeat() #repeat 适用于next(iter(ds))
lr_hr_ds = lr_hr_ds .batch(BATCH_SIZE)
# 当GPU在训练模型的时候,`prefetch` 使CPU进行数据预加载在后台取得 batchszie的数据。
lr_hr_ds = lr_hr_ds .prefetch(buffer_size=AUTOTUNE)#随机缓冲区相关
总的来说,使用tf进行数据读取主要按照以下步骤来:
- from_tensor_slices()生成Dataset对象
- map()处理数据
- shuffle()打乱数据
- repeat() 将数据集复制epoch_num次
- batch()获取当此输入网络的数据量
- perfetch()指定缓冲,提高CPU核GPU并行率
第一次写博客,如果有不对的地方,希望各位读者指正。