Kaggle-ML-How Models Work(2)_melbourne housing snapshot-CSDN博客

探索你的数据

Using Pandas to Get Familiar With Your Data

任何机器学习项目的第一步都是熟悉数据。你将使用Pandas这个库来处理你的数据。Pandas是科学家用于探索和操纵数据的主要工具。大部分人在他们的代码中会把pandas简写成pd。我们使用这个命令来执行这个操作

import pandas as pd

Pandas库中最重要的部分就是 DataFrame。DataFrame包含你可能认为是表的数据类型。它有点类似于Excel中的sheet或SQL数据库中的table。

对于你希望使用此类数据进行的大多数事情，Pandas都有强大的方法。

作为一个示例，我们来看一个澳大利亚墨尔本的房价数据。在处理数据的练习中，你可以把相同的处理步骤应用到其他数据集上，比如爱荷华州的房价。

这个示例数据 (Melbourne) 在这个路径下
../input/melbourne-housing-snapshot/melb_data.csv.

示例数据下载

我们使用以下命令导入并探索数据：

# save filepath to variable for easier access
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path)
# print a summary of the data in Melbourne data
melbourne_data.describe()