2.Explore Your Data

最新推荐文章于 2023-10-30 11:26:03 发布

自动驾驶小学生

最新推荐文章于 2023-10-30 11:26:03 发布

阅读量349

点赞数

分类专栏： Machine Learning

Machine Learning 专栏收录该内容

21 篇文章 1 订阅

订阅专栏

Using Pandas to Get Familiar With Your Data

任何机器学习项目的第一步都是熟悉数据。您将使用Pandas库。 Pandas是科学家用于挖掘和处理数据的主要工具。大多数人在他们的代码中将pandas缩写为pd。我们使用如下命令执行此操作。

[1]

import pandas as pd

Pandas库中最重要的部分是DataFrame。 DataFrame包含您可能认为是表格的数据类型。这类似于Excel中的工作表或SQL数据库中的表。
对于您希望使用此类数据进行的大多数事情，Pandas都有强大的方法。
例如，我们将查看澳大利亚墨尔本的房价数据。在动手练习中，您将相同的处理方法应用于新的数据集，该数据集含有爱荷华州的房价。
示例（墨尔本）数据位于文件路径../input/melbourne-housing-snapshot/melb_data.csv。
我们使用以下命令加载和挖掘数据：

【2】

# save filepath to variable for easier access
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 
# print a summary of the data in Melbourne data
melbourne_data.describe()

	Rooms	Price	Distance	Postcode	Bedroom2	Bathroom	Car	Landsize	BuildingArea	YearBuilt	Lattitude	Longtitude	Propertycount
count	13580.000000	1.358000e+04	13580.000000	13580.000000	13580.000000	13580.000000	13518.000000	13580.000000	7130.000000	8205.000000	13580.000000	13580.000000	13580.000000
mean	2.937997	1.075684e+06	10.137776	3105.301915	2.914728	1.534242	1.610075	558.416127	151.967650	1964.684217	-37.809203	144.995216	7454.417378
std	0.955748	6.393107e+05	5.868725	90.676964	0.965921	0.691712	0.962634	3990.669241	541.014538	37.273762	0.079260	0.103916	4378.581772
min	1.000000	8.500000e+04	0.000000	3000.000000	0.000000	0.000000	0.000000	0.000000	0.000000	1196.000000	-38.182550	144.431810	249.000000
25%	2.000000	6.500000e+05	6.100000	3044.000000	2.000000	1.000000	1.000000	177.000000	93.000000	1940.000000	-37.856822	144.929600	4380.000000
50%	3.000000	9.030000e+05	9.200000	3084.000000	3.000000	1.000000	2.000000	440.000000	126.000000	1970.000000	-37.802355	145.000100	6555.000000
75%	3.000000	1.330000e+06	13.000000	3148.000000	3.000000	2.000000	2.000000	651.000000	174.000000	1999.000000	-37.756400	145.058305	10331.000000
max	10.000000	9.000000e+06	48.100000	3977.000000	20.000000	8.000000	10.000000	433014.000000	44515.000000	2018.000000	-37.408530	145.526350	21650.000000

Interpreting Data Description

结果显示原始数据集中每列的8个数字。第一个数字（计数）显示有多少行具有有效值。
由于许多原因而出现缺失值。例如，在调查单卧室房屋时，不会收集第二间卧室的大小。我们将回到缺失数据的主题。
第二个值是平均值，在此之下，std是标准差，它衡量数值如何展开。
要解释最小值，25％，50％，75％和最大值，请设想将每列从最低值到最高值进行排序。第一个（最小）值是min。如果你在列表中走四分之一，这就是25%的值。第50和第75百分位数也是同样定义。

Your Turn

开始的第一个编程练习。

自动驾驶小学生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2.Explore Your Data

Using Pandas to Get Familiar With Your Data任何机器学习项目的第一步都是熟悉数据。您将使用Pandas库。 Pandas是科学家用于挖掘和处理数据的主要工具。大多数人在他们的代码中将pandas缩写为pd。我们使用如下命令执行此操作。[1]import pandas as pdPandas库中最重要的部分是DataFrame。 Da...
复制链接

扫一扫