7.2 TensorFlow笔记(基础篇): 生成TFRecords文件

原创 2017年08月05日 17:18:50

前言

在TensorFlow中进行模型训练时,在官网给出的三种读取方式,中最好的文件读取方式就是将利用队列进行文件读取,而且步骤有两步:
1. 把样本数据写入TFRecords二进制文件
2. 从队列中读取

TFRecords二进制文件,能够更好的利用内存,更方便的移动和复制,并且不需要单独的标记文件
下面官网给出的,对mnist文件进行操作的code,具体代码请参考:tensorflow-master\tensorflow\examples\how_tos\reading_data\convert_to_records.py

CODE

源码与解析

解析主要在注释里

import tensorflow as tf
import os
import argparse
import sys

os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'

#1.0 生成TFRecords 文件
from tensorflow.contrib.learn.python.learn.datasets import mnist

FLAGS = None

# 编码函数如下:
def _int64_feature(value):
  return tf.train.Feature(int64_list=tf.train.Int64List(value=[value]))


def _bytes_feature(value):
  return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value]))


def convert_to(data_set, name):
  """Converts a dataset to tfrecords."""
  images = data_set.images
  labels = data_set.labels
  num_examples = data_set.num_examples

  if images.shape[0] != num_examples:
    raise ValueError('Images size %d does not match label size %d.' %
                     (images.shape[0], num_examples))
  rows = images.shape[1] # 28
  cols = images.shape[2] # 28
  depth = images.shape[3] # 1. 是黑白图像,所以是单通道

  filename = os.path.join(FLAGS.directory, name + '.tfrecords')
  print('Writing', filename)
  writer = tf.python_io.TFRecordWriter(filename)
  for index in range(num_examples):
    image_raw = images[index].tostring()

    # 写入协议缓存区,height,width,depth,label编码成int64类型,image_raw 编码成二进制
    example = tf.train.Example(features=tf.train.Features(feature={
        'height': _int64_feature(rows),
        'width': _int64_feature(cols),
        'depth': _int64_feature(depth),
        'label': _int64_feature(int(labels[index])),
        'image_raw': _bytes_feature(image_raw)}))
    writer.write(example.SerializeToString()) # 序列化为字符串
  writer.close()


def main(unused_argv):
  # Get the data.
  data_sets = mnist.read_data_sets(FLAGS.directory,
                                   dtype=tf.uint8,
                                   reshape=False,
                                   validation_size=FLAGS.validation_size)

  # Convert to Examples and write the result to TFRecords.
  convert_to(data_sets.train, 'train')
  convert_to(data_sets.validation, 'validation')
  convert_to(data_sets.test, 'test')

if __name__ == '__main__':
  parser = argparse.ArgumentParser()
  parser.add_argument(
      '--directory',
      type=str,
      default='MNIST_data/',
      help='Directory to download data files and write the converted result'
  )
  parser.add_argument(
      '--validation_size',
      type=int,
      default=5000,
      help="""\
      Number of examples to separate from the training data for the validation
      set.\
      """
  )
  FLAGS, unparsed = parser.parse_known_args()
  tf.app.run(main=main, argv=[sys.argv[0]] + unparsed)

运行结果

打印输出

Extracting MNIST_data/train-images-idx3-ubyte.gz
Extracting MNIST_data/train-labels-idx1-ubyte.gz
Extracting MNIST_data/t10k-images-idx3-ubyte.gz
Extracting MNIST_data/t10k-labels-idx1-ubyte.gz
Writing MNIST_data/train.tfrecords
Writing MNIST_data/validation.tfrecords
Writing MNIST_data/test.tfrecords

文件

生成的TFRecords文件

相关

  1. argparse是python用于解析命令行参数和选项的标准模块,用于代替已经过时的optparse模块。argparse模块的作用是用于解析命令行参数,详情请参见这里:python中的argparse模块:http://blog.csdn.net/fontthrone/article/details/76735591
  2. 把样本数据写入TFRecords二进制文件 : http://blog.csdn.net/fontthrone/article/details/76727412
  3. TensorFlow笔记(基础篇):加载数据之预加载数据与填充数据:http://blog.csdn.net/fontthrone/article/details/76727466
  4. TensorFlow笔记(基础篇):加载数据之从队列中读取:http://blog.csdn.net/fontthrone/article/details/76728083
版权声明:欢迎转载,共同学习,但请尊重版权,标明出处:http://blog.csdn.net/fontthrone

TensorFlow TFRecord数据集的生成与显示

TFRecord   TensorFlow提供了TFRecord的格式来统一存储数据,TFRecord格式是一种将图像数据和标签放在一起的二进制文件,能更好的利用内存,在tensorflow中快速的...
  • chaipp0607
  • chaipp0607
  • 2017年06月10日 13:11
  • 4844

Tensorflow分批量读取tfrecords

Tensorflow分批量读取tfrecords
  • jacke121
  • jacke121
  • 2017年12月17日 11:12
  • 106

TensorFlow读取tfrecords数据

因为要用到TensorFlow,自然少不了数据的读取,这里我自己写了一个tfrecords的数据的读取函数 """ Created on Wed Jun 28 13:56:35 2017 @auth...
  • m0_37041325
  • m0_37041325
  • 2017年07月09日 16:58
  • 311

机器学习: TensorFlow 的数据读取与TFRecords 格式

最近学习tensorflow,发现其读取数据的方式看起来有些不同,所以又重新系统地看了一下文档,总得来说,tensorflow 有三种主流的数据读取方式: 1) 传送 (feeding): Pyth...
  • shinian1987
  • shinian1987
  • 2017年03月22日 11:24
  • 2389

Tensorflow中使用TFRecords高效读取数据--结合NLP数据实践

之前一篇博客在进行论文仿真的时候用到了TFRecords进行数据的读取操作,但是因为当时比较忙,所以没有进行深入学习。这两天看了一下,决定写篇博客专门结合该代码记录一下TFRecords的相关操作。 ...
  • liuchonge
  • liuchonge
  • 2017年06月23日 20:15
  • 9735

Tensorflow建立与读取TFrecorder文件

Tensorflow建立与读取TFrecorder文件除了直接读取数据文件,比如csv和bin文件,tensorflow还可以建立一种自有格式的数据文件,称之为tfrecorder,这种文件储存类似于...
  • freedom098
  • freedom098
  • 2017年02月20日 13:20
  • 5693

用Tensorflow处理自己的数据:制作自己的TFRecords数据集

转载请注明作者和出处: http://blog.csdn.net/c406495762 运行平台: Windows Python版本: Python3.x IDE: Spyder前言   ...
  • WIinter_FDd
  • WIinter_FDd
  • 2017年06月01日 22:28
  • 10747

深度学习word2vec笔记之基础篇

深度学习word2vec笔记之基础篇
  • mytestmy
  • mytestmy
  • 2014年05月25日 16:00
  • 67616

tensorflow中tfrecords文件的save和read

在tensorflow程序中,推荐使用tensorflow内定标准格式——TFRecords,本文是对csv生成TFRecords文件并读取显示的代码实现...
  • oTengYue
  • oTengYue
  • 2017年06月01日 13:14
  • 806

Tensorflow 生成tfrecords

Tfrecords 是Tensorflow的主流数据格式。可以用我写的脚本将图片方便的转化为tfrecords格式。 https://github.com/bxclib/generate_tfrec...
  • xingce_cs
  • xingce_cs
  • 2017年07月07日 19:58
  • 223
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:7.2 TensorFlow笔记(基础篇): 生成TFRecords文件
举报原因:
原因补充:

(最多只允许输入30个字)