TensorFlow读取数据

最近看到一个巨牛的人工智能教程,分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。平时碎片时间可以当小说看,【点这里可以去膜拜一下大神的“小说”】

本文介绍如何使用TensorFlow来读取图片数据,主要介绍写入TFRecord文件再读取和直接使用队列来读取两种方式。假设我们图片目录结构如下:

|---a
|   |---1.jpg
|   |---2.jpg
|   |---3.jpg
|
|---b
|   |---1.jpg
|   |---2.jpg
|   |---3.jpg
|
|---c
|   |---1.jpg
|   |---2.jpg
|   |---3.jpg

1 使用TFRecoder

思路:思路:使用TFRecod主要是把每张图片及其对应的label写入到一个tfrecode文件中。tfrecode以二进制形式保存,其中内部使用了protobuf定义协议,即定义格式序列化为二进制。我们可以使用tf提供的tf.train.Example来指定序列化格式。将a目录中所有的文件的label指定为a,另外两个目录bc同理。

代码如下:

def build_data(dir,file_str,map_str):
    '''
    :param dir: 根目录,dir下所有子目录名称为label
    :param file_str: 导出的tfrecorde文件
    :param map_str: 数字序号0~n与label映射关系保存路径
    :return:
    '''
    files=os.listdir(dir);
    writer = tf.python_io.TFRecordWriter(file_str)  # 要生成的文件
    # 由于tf.train.Feature只能取float、int和bytes,因此需要将label映射到int,保存到文件
    map_file = open(map_str,'w')
    for index,label in enumerate(files):     #遍历文件夹
        data_dir = os.path.join(dir,label)
        map_file.write(str(index) + ":" + label + "\n")
        for img_name in os.listdir(data_dir):  #遍历图片
            img_path=os.path.join(data_dir,img_name)
            img = Image.open(img_path)         #读取图片
            img = img.resize((256, 256))       #将图片宽高转为256*256
            img_raw=img.tobytes()              #图片转为字节

            example=tf.train.Example(features=tf.train.Features(feature={
                'label': tf.train.Feature(int64_list=tf.train.Int64List(value=[index])),
                'img': tf.train.Feature(bytes_list=tf.train.BytesList(value=[img_raw]))
            }))

            writer.write(example.SerializeToString())  # 序列化为字符串并写入文件
    writer.close()
    map_file.close();

接下来是读取tfrecord文件。注意读取时label、img名称及类型要一致:


def read_data(file_str):
    # 根据文件名生成一个队列
    file_path_queue = tf.train.string_input_producer([file_str])

    reader = tf.TFRecordReader()
    _, serialized_example = reader.read(file_path_queue)  # 返回文件名和文件
    features = tf.parse_single_example(serialized_example,
                                       features={
                                           'label': tf.FixedLenFeature([], tf.int64),
                                           'img': tf.FixedLenFeature([], tf.string),
                                       })
    label = tf.cast(features['label'], tf.int64)       # 读取label
    img = tf.decode_raw(features['img'], tf.uint8)
    img = tf.reshape(img, [256, 256, 3])               #将维度转为256*256的3通道
    img = tf.cast(img, tf.float32) * (1. / 255) - 0.5  #将图片中的数据转为[-0.5,0.5]

    return img, label

接下来看看如何使用:

build_data("D:/test","D:/data/tf.tfrecorde","D:/data/map.txt")
img, label =read_data("D:/data/tf.tfrecorde")



#使用shuffle_batch可以随机打乱输入
img_batch, label_batch = tf.train.shuffle_batch([img, label],
                                                batch_size=30, capacity=2000,
                                                min_after_dequeue=1000)
init = tf.initialize_all_variables()

with tf.Session() as sess:
    sess.run(init)
    threads = tf.train.start_queue_runners(sess=sess)
    for i in range(3):
        imgs, labels= sess.run([img_batch, label_batch])
        #我们也可以根据需要对val, l进行处理 
        print(imgs.shape, labels)

运行结果如下:

(30, 256, 256, 3) [1 2 2 1 1 2 2 1 0 1 0 1 0 0 2 0 0 0 2 1 1 1 1 0 0 1 2 1 2 0]
(30, 256, 256, 3) [2 1 1 0 0 1 1 0 2 2 2 0 0 0 0 2 1 0 0 2 0 0 2 2 2 1 0 1 0 2]
(30, 256, 256, 3) [2 0 2 0 1 2 1 2 2 1 0 2 0 0 2 2 2 1 1 1 1 1 0 0 2 0 2 2 0 0]

从结果可以看出,虽然我们提供的图片只有9张。每一类各3张,但是能读取303030张出来,这主要是通过循环读取得到的。也就是说数量上虽然增加了,但实际上也就是那9张图片。

2 不使用TFRecord

TFRecord适合将标签、图片数据等其他相关的数据一起封装到一个对象,然后逐个读取。有时候,我们并不需要标签,只需要对图片读取。那么可以考虑之间从路径队列中读取,而不需要转到TFRecord文件。

直接上代码:

def read_data(dir ):
    '''
    :param dir: 图片根目录
    '''
    input_paths = glob.glob(os.path.join(dir, "*.jpg"))
    decode = tf.image.decode_jpeg
    if len(input_paths) == 0:    #如果不存在jpg图片,则遍历png图片
        input_paths = glob.glob(os.path.join(dir, "*.png"))
        decode = tf.image.decode_png
    if len(input_paths) == 0:    #如果png图片不存在,抛出异常
        raise Exception("input_dir contains no image files")

    #产生文件路径队列,并且打乱顺序
    path_queue = tf.train.string_input_producer(input_paths, shuffle=True)
    reader = tf.WholeFileReader()   #创建读取文件对象
    paths, contents = reader.read(path_queue) #从队列中读取
    img_raw = decode(contents)
    # 将图片缩小到256*256,如果在此之前对图片预处理(放缩),那么这一步可省略
    img_raw = tf.image.resize_images(img_raw, [256, 256])
    img_raw = tf.image.convert_image_dtype(img_raw, dtype=tf.float32)
    img_raw.set_shape([256, 256, 3])#设置shape
    return img_raw

接下来看看如何使用:


img = read_data("D:/test/*" )
img_batch = tf.train.batch([img], batch_size=30)

init = tf.initialize_all_variables()

with tf.Session() as sess:
    sess.run(init)
    threads = tf.train.start_queue_runners(sess=sess)
    for i in range(3):
        imgs = sess.run( img_batch )
        print(imgs.shape )

看看运行结果:

(30, 256, 256, 3)
(30, 256, 256, 3)
(30, 256, 256, 3)
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
TensorFlow是一个开源的机器学习框架,通常用于创建神经网络模型。在训练模型之前,需要准备好数据集,本文将介绍如何使用TensorFlow读取数据TensorFlow提供了多种读取数据的方法,其中最常用的是使用tf.data模块。首先,我们需要定义一个数据集对象,并通过读取文件的方式将数据加载进来。TensorFlow支持多种文件格式,如csv、txt、json、tfrecord等,可以根据自己的需求选择合适的格式。 加载数据后,我们可以对数据进行一些预处理,比如做数据增强、进行归一化等操作。预处理完数据后,我们需要将数据转化为张量类型,并将其打包成batch。通过这种方式,我们可以在每次训练中同时处理多个数据。 随后,我们可以使用tf.data.Dataset中的shuffle()函数打乱数据集顺序,防止模型只学习到特定顺序下的模式,然后使用batch()函数将数据划分成批次。最后,我们可以使用repeat()函数让数据集每次可以被使用多次,达到更好的效果。 在TensorFlow中,我们可以通过输入函数将数据集传入模型中,使模型能够直接从数据集中读取数据。使用输入函数还有一个好处,即能够在模型训练时动态地修改数据的内容,特别是在使用esimator模块进行模型训练时,输入函数是必须要的。 总结一下,在TensorFlow读取数据的流程如下:定义数据集对象-读取文件-预处理数据-打包数据为batch-打乱数据集-划分批次数据-重复数据集-使用输入函数读取数据。 在实际应用过程中,我们还可以通过其他方式来读取数据,如使用numpy、pandas等工具库,也可以自定义数据集类来处理数据。无论使用何种方式,读取数据都是机器学习训练中重要的一步,需要仔细处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值