探索你的数据
Using Pandas to Get Familiar With Your Data
任何机器学习项目的第一步都是熟悉数据。你将使用Pandas这个库来处理你的数据。Pandas是科学家用于探索和操纵数据的主要工具。大部分人在他们的代码中会把pandas简写成pd
。我们使用这个命令来执行这个操作
import pandas as pd
Pandas库中最重要的部分就是 DataFrame。DataFrame包含你可能认为是表的数据类型。它有点类似于Excel中的sheet或SQL数据库中的table。
对于你希望使用此类数据进行的大多数事情,Pandas都有强大的方法。
作为一个示例,我们来看一个澳大利亚墨尔本的房价数据。在处理数据的练习中,你可以把相同的处理步骤应用到其他数据集上,比如爱荷华州的房价。
这个示例数据 (Melbourne) 在这个路径下
../input/melbourne-housing-snapshot/melb_data.csv
.
我们使用以下命令导入并探索数据:
# save filepath to variable for easier access
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path)
# print a summary of the data in Melbourne data
melbourne_data.describe()
Interpreting Data Description
结果显示原始数据集中每列的8个数字。第一个数字 count 表示有多少行具有非缺失值,缺失值产生的原因有很多。比如说,在调查只有一间卧室的房子时,不会收集第二间卧室的大小。我们将回到缺失数据的主题。
第二个值是mean ,就是平均值。在此之下,std 是标准偏差,用以衡量数据值偏离算术平均值的程度。标准偏差越小,这些值偏离平均值就越少,反之亦然。标准偏差的大小可通过标准偏差与平均值的倍率关系来衡量。
把每列从最低值到最高值进行排序,第一个(最小的)值是 min 。如果你在列表中走四分之一,你会发现一个大于值的25%并且小于值的75%的数字。这就是 25% ,其他几个值的含义同理。
Your Turn
原课程链接
Machine Learning Course Home Page.
其他学习资源
十分钟快速入门Pandas.