训练一个机器学习项目,对数据的预处理是非常重要的,所谓“磨刀不误砍柴工”,这决定了整个项目的效率,多花半个小时来对数据进行更优化的处理,也许在之后的训练运行过程中会节省一个小时甚至一天的时间。
接下来我们就来看看如何磨这把“刀”吧。
导入数据
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
先导入数据预处理所需要的库,在Python中,最流行的三个库也就是Numpy、Matplotlib 和 Pandas。对于数据预处理而言,Pandas 和 Numpy 基本是必需的,而Matplotlib.pyplot则是满足绘图所需要的库。
我们通常处理的数据集是csv文件,这时我们用下面这条语句
dataset = pd.read_csv('train_data.csv')
用Pandas(pd.read_csv)来读入数据集。之后输入dataset并回车可以看到我们读入的数据。(图中仅显示了一部分)
然而有的时候我们想要输入的数据已经压缩好了譬如是一文件夹的图片,那我们可以用另一种读取数据的方式,如下:
import glob
image = glob.glob('./*.jpg')
这样的操作会读入当前目录下的所有jpg格式的图片
数据处理的第一步