tensorflow读取csv文件

最新推荐文章于 2022-05-24 00:26:11 发布

lqr_吖吖

最新推荐文章于 2022-05-24 00:26:11 发布

阅读量1.6k

点赞数 1

分类专栏：机器学习 tensorflow 文章标签：机器学习 tensorflow

本文链接：https://blog.csdn.net/weixin_39123191/article/details/81263849

版权

机器学习同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

tensorflow

1 篇文章 0 订阅

订阅专栏

环境：
python:3.6.5
tensorflow:1.9.0

为了读取csv文件，TensorFlow构建了自己的方法。与其他库（如pandas）相比，读取csv文件相对复杂。
读取csv文件需要几个准备步骤：
1）创建一个文件名队列对象，读取的csv文件
2）创建一个TextLineReader
3）使用该行读取器读取文件
4）解码csv列，并将其保存于张量tensor，每一列都对应一个张量
注：如果想将同类型的数据混合在一起，可用pack方法，这是旧版本的方法，tensorflow1.9.0对应的是stack方法

以鸢尾花数据集（iris）为例，数据集包含3种鸢尾花（山鸢尾、变色鸢尾、维吉尼亚鸢尾，分别用0、1、2表示）。在每个样品中测量4个特征：花萼长度（seqpallength）、花萼宽度（sepalwidth）、花瓣长度(petallength)、花瓣宽度(petalwidth)。基于这4个特征的组合，可用于区分鸢尾花属于哪一种。

鸢尾花的数据集下载链接如下：
http://download.tensorflow.org/data/iris_training.csv：鸢尾花训练集。
http://download.tensorflow.org/data/iris_test.csv：鸢尾花测试集。

以读取iris_training.csv为例，将该文件下载下来放到Python可执行文件的相同目录中。读取该数据集的前5行记录，代码如下：

import tensorflow as tf
# 创建一个文件名队列对象
filename_queue = tf.train.string_input_producer(tf.train.match_filenames_once("iris_training.csv"),shuffle = True)
# 创建一个TextLineReader
reader = tf.TextLineReader(skip_header_lines=1)
# 使用行读取器读取csv文件内容
key, value = reader.read(filename_queue)
# 解码csv列并转化为tensor"张量"
record_defaults = [[0.],[0.],[0.],[0.],[1]]
col1, col2, col3, col4, col5 = tf.decode_csv(value, record_defaults = record_defaults)
# 提取特征值，可用pack(现在版本已改为stack)实现
features = tf.stack([col1,col2,col3,col4]) # 四个特征值，分别为花萼长度，花萼宽度，花瓣长度，花瓣宽度

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    sess.run(tf.local_variables_initializer())

    coord = tf.train.Coordinator()
    threads = tf.train.start_queue_runners(coord = coord)

    # 打印"iris_training" 文件的前5行
    for i in range(5):
        examples = sess.run([features])
        print(examples) # 打印四种特征值
    coord.request_stop()
    coord.join(threads)