线程队列与IO操作（二）

最新推荐文章于 2022-10-19 20:31:21 发布

qq_41889395

最新推荐文章于 2022-10-19 20:31:21 发布

阅读量173

点赞数 1

分类专栏：笔记文章标签：线程队列 IO操作队列文件读取图片处理

本文链接：https://blog.csdn.net/qq_41889395/article/details/84330197

版权

笔记专栏收录该内容

14 篇文章 0 订阅

订阅专栏

线程队列与IO操作

记录，成为更好的自己

1. 队列和线程

2. 文件读取

3. 图片处理

2. 文件读取

1. 文件读取流程

构造一个文件队列，把路径+文件放入队列中
读取队列内容，不同的文件有不同的读取方式。
- csv文件：默认读取一行
- 二进制文件：指定一个样本的bytes
- 图片文件：按一张一张的读取
解码，读取一个样本的内容
批处理

2. 文件读取API

构造文件队列
- tf.train.string_input_producer(string_tensor, shuffle=True)
- 将输出字符串（例如文件名）输入到管道队列
  - string_tensor:含有文件名的1阶张量（就相当于是一个列表，里面放的是每个文件的名字，注意要加路径）
  - shuffle：读取的时候乱不乱，乱也没有关系
  - num_epochs:过几遍数据，默认无限过数据
  - return：具有输出字符串的队列
文件阅读器

根据文件格式，选择相应的文件阅读器
- class tf.TestLineReader
  - 阅读文本文件逗号分隔值（CSV）格式，默认按行读取
  - return：读取器实例
- tf.FixedLengthRecordReader(record_bytes)
  - 要读取每个记录是固定数量字节二进制文件，每个样本占多少个自己去读取。
  - record_bytes:整型，指定每次读取的字节数
  - return：读取器实例
- tf.TFRecordReader
  - 读取TfRecords文件
有一个共同的读取方法：
- read(file_queue):从队列中指定数量内容，返回一个Tensors元祖（key文件名，value默认的内容（行，字节））
文件内容解码器

从文件中读取的是字符串，需要函数去解析这些字符串到张量
- tf.decode_csv(records, record_defaults=None, field_delim=None, name=None)
  将CSV转换为张量，与tf.TextLineReader搭配使用
  - records:tensor型字符串，每个字符串是CSV中的记录行，就是刚刚读出来的value
  - field_delim:默认分割符“，”
  - record_defaults:参数决定了所得张量的类型，并设置一个值在输入字符串中缺少使用默认值。如：
- tf.decode_raw(bytes, out_type,little_endian=None,name=None)
  - 将字节装换为一个数字向量表示，字节为一个字符串类型的张量，与函数tf.FixedLengthRecordReader搭配使用，二进制读取为uint8格式

开启线程操作
- tf.train.start_queue_runners(sess=None,coord=None)
  - 收集所有图中的队列线程，并启动线程
  - sess:所在的会话中
  - coord：线程协调器
  - return：返回所有线程队列
管道读端批处理
- tf.train.batch(tensor,batch_size, num_threads=1,capacity=32,name=None)
  - 读取指定大小（个数）的张量
  - tensor:可以是包含张量的列表
  - batch_size:从队列中读取的批处理大小
  - num_threads：进入队列的线程数
  - capacity：整数，队列中元素的最大数量
  - return:tensors

文件读取案例

CSV文件读取

1. 先找到文件，构造一个列表
2. 构造文件队列
3. 构造阅读器，读取队列内容
4. 解码内容
5. 批处理（多个样本）
```
def csvread(filelist):
    """
    读取CSV文件
    :param filelist:文件路径+名字的列表
    :return: 读取的内容
    """
    # 1. 构造文件的列表
    file_queue = tf.train.string_input_producer(filelist)
     # 2. 构造阅读器
    reader = tf.TextLineReader()

    key ,value = reader.read(file_queue)
    # print(value)

    # 3. 对每行内容进行解码
    # record_defaults:指定每一个样本的每一列的类型，还可以指定默认值
    records = [["None"],["None"]] #这里有两列，指定两个
    example, label = tf.decode_csv(value, record_defaults=records)
    # print(example, label)

    # 4. 读取多个数据，进行批处理
    # 批处理大小（batch_size）跟队列，数据的数量没有影响，只决定 这批次取多少数据
    example_batch, label_batch = tf.train.batch([example, label], batch_size=9 , num_threads=1,capacity=9)
    return example_batch, label_batch


if __name__=="__main__":
    # 1. 找到文件，放入列表
    file_name = os.listdir("./data/csvdata")
    filelist = [os.path.join("./data/csvdata",file) for file in file_name]
    # print(file_name)
    example_batch, label_batch = csvread(filelist)

    # 开启会话
    with tf.Session() as sess:
        # 开启线程协调器
        coord = tf.train.Coordinator()

        # 开启读取文件的线程
        threads = tf.train.start_queue_runners(sess, coord=coord)

        # 打印读取内容
        print(sess.run([example_batch, label_batch]))

        # 回收子线程
        coord.request_stop()
        coord.join(threads)
```

qq_41889395

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
线程队列与IO操作（二）

线程队列与IO操作记录，成为更好的自己1. 队列和线程2. 文件读取3. 图片处理2. 文件读取1. 文件读取流程构造一个文件队列，把路径+文件放入队列中读取队列内容，不同的文件有不同的读取方式。csv文件：默认读取一行二进制文件：指定一个样本的bytes图片文件：按一张一张的读取解码，读取一个样本的内容批处理2. 文件读取API构造文件队列t...
复制链接

扫一扫