1、概述
tensorflow对于数据的格式有着特殊的要求,另外所需要的数据量也是巨大,同样会有批量梯度下降这样的需求。为了保证数据的随机性,我们有时候还需要随机化数据分布。这样数据预处理就变得十分的关键。tensorflow提供了一系列的方法来帮助我们完成这样的工作。
2、数据源
在真实的人工智能场景中,数据源主要有两种:
- 从 Numpy 数组中读取内存中的数据。
- 从 csv 文件中读取行。
在数据量在可接受的范围内,可以使用第一种方法。如果数据量十分庞大,将其加载到内存当中变得非常困难,此时可以选择从csv文件中逐行的读取数据。
3、从内存中读取数据
可以采用numpy或者pandas方式将数据度渠道内存到内存当中,进行后续操作。在第一章中使用pandas的read_csv方法读取数据。请参照下面代码
import pandas as pd
import tensorflow as tf
CSV_COLUMN_NAMES = ['SepalLength','SepalWidth','PetalLength', 'PetalWidth', 'Species']
data_train=pd.read_csv('iris_test.csv',names=CSV_COLUMN_NAMES,header=0)
data_test=pd.read_csv('iris_training.csv',names=CSV_COLUMN_NAMES,header=0)
data_train.head()
使用head()方法查看数据情况