第四章:新版tensorflow入门,处理数据集

本文介绍了如何在新版TensorFlow中处理数据集,包括从内存和CSV文件中读取数据,强调了数据预处理的重要性,如数据随机化、批量处理。通过示例代码展示了从Numpy数组和CSV文件读取数据、数据切片、打乱数据顺序、重复生成数据以及批量处理的步骤。
摘要由CSDN通过智能技术生成

1、概述

tensorflow对于数据的格式有着特殊的要求,另外所需要的数据量也是巨大,同样会有批量梯度下降这样的需求。为了保证数据的随机性,我们有时候还需要随机化数据分布。这样数据预处理就变得十分的关键。tensorflow提供了一系列的方法来帮助我们完成这样的工作。

2、数据源

在真实的人工智能场景中,数据源主要有两种:

  • 从 Numpy 数组中读取内存中的数据。
  • 从 csv 文件中读取行。

在数据量在可接受的范围内,可以使用第一种方法。如果数据量十分庞大,将其加载到内存当中变得非常困难,此时可以选择从csv文件中逐行的读取数据。

3、从内存中读取数据

可以采用numpy或者pandas方式将数据度渠道内存到内存当中,进行后续操作。在第一章中使用pandas的read_csv方法读取数据。请参照下面代码

import pandas as pd
import tensorflow as tf
CSV_COLUMN_NAMES = ['SepalLength','SepalWidth','PetalLength', 'PetalWidth', 'Species']
data_train=pd.read_csv('iris_test.csv',names=CSV_COLUMN_NAMES,header=0)
data_test=pd.read_csv('iris_training.csv',names=CSV_COLUMN_NAMES,header=0)
data_train.head()

使用head()方法查看数据情况

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值