tensorflow读取csv文件

环境:
python:3.6.5
tensorflow:1.9.0

为了读取csv文件,TensorFlow构建了自己的方法。与其他库(如pandas)相比,读取csv文件相对复杂。
读取csv文件需要几个准备步骤:
1)创建一个文件名队列对象,读取的csv文件
2)创建一个TextLineReader
3)使用该行读取器读取文件
4)解码csv列,并将其保存于张量tensor,每一列都对应一个张量
注:如果想将同类型的数据混合在一起,可用pack方法,这是旧版本的方法,tensorflow1.9.0对应的是stack方法

以鸢尾花数据集(iris)为例,数据集包含3种鸢尾花(山鸢尾、变色鸢尾、维吉尼亚鸢尾,分别用0、1、2表示)。在每个样品中测量4个特征:花萼长度(seqpallength)、花萼宽度(sepalwidth)、花瓣长度(petallength)、花瓣宽度(petalwidth)。基于这4个特征的组合,可用于区分鸢尾花属于哪一种。

鸢尾花的数据集下载链接如下:
http://download.tensorflow.org/data/iris_training.csv:鸢尾花训练集。
http://download.tensorflow.org/data/iris_test.csv:鸢尾花测试集。

以读取iris_training.csv为例,将该文件下载下来放到Python可执行文件的相同目录中。读取该数据集的前5行记录,代码如下:

import tensorflow as tf
# 创建一个文件名队列对象
filename_queue = tf.train.string_input_producer(tf.train.match_filenames_once("iris_training.csv"),shuffle = True)
# 创建一个TextLineReader
reader = tf.TextLineReader(skip_header_lines=1)
# 使用行读取器读取csv文件内容
key, value = reader.read(filename_queue)
# 解码csv列并转化为tensor"张量"
record_defaults = [[0.],[0.],[0.],[0.],[1]]
col1, col2, col3, col4, col5 = tf.decode_csv(value, record_defaults = record_defaults)
# 提取特征值,可用pack(现在版本已改为stack)实现
features = tf.stack([col1,col2,col3,col4]) # 四个特征值,分别为花萼长度,花萼宽度,花瓣长度,花瓣宽度

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    sess.run(tf.local_variables_initializer())

    coord = tf.train.Coordinator()
    threads = tf.train.start_queue_runners(coord = coord)

    # 打印"iris_training" 文件的前5行
    for i in range(5):
        examples = sess.run([features])
        print(examples) # 打印四种特征值
    coord.request_stop()
    coord.join(threads)

运行结果如下:
这里写图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值