(翻译)【机器学习微课程系列】1.2-模型是如何工作的-检查数据

使用Pandas熟悉你的数据

任何机器学习项目的第一步都是熟悉数据,我们将用Pandas库来做这个。Pandas是科学家用来探索和操纵数据的主要工具,大部分人将它简称为pd。执行以下命令来导入Pandas库:

import pandas as pd

Pandas库重要的部分是数据框架,它保存你可能认为是表的数据类型。这类似于Excel中的工作表或SQL数据库中的表。

Pandas有各种强大的方法来处理数据。

例如,我们要查看澳大利亚墨尔本的房价数据。在练习中,你将对一个新的数据集应用相同的处理过程,该数据集有爱荷华州的房价。

示例(墨尔本)数据位于文件路径:

../input/melbourne-housing-snapshot/melb_data.csv

我们使用以下命令加载和浏览数据:

# save filepath to variable for easier access
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 
# print a summary of the data in Melbourne data
melbourne_data.describe()

(译者注: 我跑这段代码的时候,没有使用相对路径,使用的是绝对路径:
melbourne_file_path = ‘E:/input/melbourne-housing-snapshot/melb_data.csv’

输出如下:

RoomsPriceDistancePostcodeBedroom2BathroomCarLandsizeBuildingAreaYearBuiltLattitudeLongtitudePropertycount
count13580.0000001.358000e+0413580.00000013580.00000013580.00000013580.00000013518.00000013580.0000007130.0000008205.00000013580.00000013580.00000013580.000000
mean2.9379971.075684e+0610.1377763105.3019152.9147281.5342421.610075558.416127151.9676501964.684217-37.809203144.9952167454.417378
std0.9557486.393107e+055.86872590.6769640.9659210.6917120.9626343990.669241541.01453837.2737620.0792600.1039164378.581772
min1.0000008.500000e+040.0000003000.0000000.0000000.0000000.0000000.0000000.0000001196.000000-38.182550144.431810249.000000
25%2.0000006.500000e+056.1000003044.0000002.0000001.0000001.000000177.00000093.0000001940.000000-37.856822144.9296004380.000000
50%3.0000009.030000e+059.2000003084.0000003.0000001.0000002.000000440.000000126.0000001970.000000-37.802355145.0001006555.000000
75%3.0000001.330000e+0613.0000003148.0000003.0000002.0000002.000000651.000000174.0000001999.000000-37.756400145.05830510331.000000
max10.0000009.000000e+0648.1000003977.00000020.0000008.00000010.000000433014.00000044515.0000002018.000000-37.408530145.52635021650.000000

数据解释

结果显示原始数据集中每列有8个数字。第一个数字count显示有多少未丢失数据行。

丢失数据有很多原因。例如,在测量只有一件卧室的房屋时,第二间卧室大小的值将缺失。

第二个值是平均值。在这种情况下,std就是标准差,它测量数值的分布情况。

要解释min、25%、50%、75%和max,请设想按每列数据从低到高排序。第一个(最小的)值是min。如果你浏览列表的四分之一,你会发现一个大于值的25%且小于值的75%的数字。这是25%的值(读作“25%”)。50%和75%的定义类似,最大值是最大的。

轮到你了

开始你的第一个编码练习

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值