从csv文件构建Tensorflow的数据集
当我们有一系列CSV文件,如何构建Tensorflow的数据集呢?
基本步骤
获得一组CSV文件的路径
将这组文件名,转成文件名对应的dataset => file_dataset
根据file_dataset中的每个文件名,读取文件内容 生成一个内容的dataset => content_dataset
这样的多个content_dataset, 拼接起来,形成一整个dataset
因为读出来的每条记录都是string类型, 所以还需要对每条记录做decode
存在一个这样的变量train_filenames
?
接着,我们用提前定义好的API构建文件名数据集file_dataset
?
第三步, 根据每个文件名,去读取文件里面的内容
?
interleave的作用可以类比map, 对每个元素应用操作,然后还能把结果合起来。
因此,有了interleave, 我们就把第三四步,一起完成了
之所以skip(1),是因为这个csv第一行是header.
cycle_length是并行化构建数据集的线程数
好,第五步,解析每条记录
?
最后,将每条记录都应用这个方法,就完成了构建。
?
完整代码
?
如何使用
?
这里的11610 和 3870是什么?
这是train_dataset 和 valid_dataset中数据的数量,需要在训练中手动指定每个batch中参与训练的数据的多少。
?
同理,测试的时候,使用这样的数据集,也需要手动指定。
5160是测试数据集的总量。
以上就是如何从csv文件构建Tensorflow的数据集的详细内容,更多关于csv文件构建Tensorflow的数据集的资料请关注服务器之家其它相关文章!
原文链接:https://www.cnblogs.com/sight-tech/p/13180035.html