机器学习入门一

# 机器学习入门一
安装环境省略。。。
背景:
这个数据集是基于 1990 年加州普查的数据。数据已经有点老(1990 年还能买一个湾区不错的房子),但是它有许多 优点,利于学习,所以假设这个数据为最近的。
你的第一个任务是利用加州普查数据,建立一个加州房价模 型。这个数据包含每个街区组的人口、收入中位数、房价中位数等指标。 街区组是美国调查局发布样本数据的最小地理单位(一个街区通常有 600 到 3000 人)。我 们将其简称为“街区”。 你的模型要利用这个数据进行学习,然后根据其它指标,预测任何街区的的房价中位数。

1.0 加载数据,也可从网上直接load,方式很多

def load_housing_data():
return pd.read_csv(‘housing.csv’)
housing=load_housing_data()

2.0 对数据的描述

print housing.head()
在这里插入图片描述
print housing.describe()
在这里插入图片描述
在这里插入图片描述
count 、 mean 、 min 和 max 几行的意思很明显了。注意,空值被忽略了(所以,卧室总数 是 20433 而不是 20640)。 std 是标准差(揭示数值的分散度)。25%、50%、75% 展示了 对应的分位数:每个分位数指明小于这个值,且指定分组的百分比。例如,25% 的街区的房 屋年龄中位数小于 18,而 50% 的小于 29,75% 的小于 37。这些值通常称为第 25 个百分位 数(或第一个四分位数),中位数,第 75 个百分位数(第三个四分位数)。
housing.hist(bins=50,figsize=(20,15))
另一种快速了解数据类型的方法是画出每个数值属性的柱状图。柱状图(的纵轴)展示了特 定范围的实例的个数。你还可以一次给一个属性画图,或对完整数据集调用 hist() 方法,后 者会画出每个数值属性的柱状图。例如,你可以看到略微超过 800 个街区 的 median_house_value 值差不多等于 500000 美元。
在这里插入图片描述

注意柱状图中的一些点:
1. 首先,收入中位数貌似不是

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值