# 机器学习入门一
安装环境省略。。。
背景:
这个数据集是基于 1990 年加州普查的数据。数据已经有点老(1990 年还能买一个湾区不错的房子),但是它有许多 优点,利于学习,所以假设这个数据为最近的。
你的第一个任务是利用加州普查数据,建立一个加州房价模 型。这个数据包含每个街区组的人口、收入中位数、房价中位数等指标。 街区组是美国调查局发布样本数据的最小地理单位(一个街区通常有 600 到 3000 人)。我 们将其简称为“街区”。 你的模型要利用这个数据进行学习,然后根据其它指标,预测任何街区的的房价中位数。
1.0 加载数据,也可从网上直接load,方式很多
def load_housing_data():
return pd.read_csv(‘housing.csv’)
housing=load_housing_data()
2.0 对数据的描述
print housing.head()
print housing.describe()
count 、 mean 、 min 和 max 几行的意思很明显了。注意,空值被忽略了(所以,卧室总数 是 20433 而不是 20640)。 std 是标准差(揭示数值的分散度)。25%、50%、75% 展示了 对应的分位数:每个分位数指明小于这个值,且指定分组的百分比。例如,25% 的街区的房 屋年龄中位数小于 18,而 50% 的小于 29,75% 的小于 37。这些值通常称为第 25 个百分位 数(或第一个四分位数),中位数,第 75 个百分位数(第三个四分位数)。
housing.hist(bins=50,figsize=(20,15))
另一种快速了解数据类型的方法是画出每个数值属性的柱状图。柱状图(的纵轴)展示了特 定范围的实例的个数。你还可以一次给一个属性画图,或对完整数据集调用 hist() 方法,后 者会画出每个数值属性的柱状图。例如,你可以看到略微超过 800 个街区 的 median_house_value 值差不多等于 500000 美元。
注意柱状图中的一些点:
1. 首先,收入中位数貌似不是