机器学习入门一

最新推荐文章于 2023-08-03 10:52:46 发布

simon_zhou_test

最新推荐文章于 2023-08-03 10:52:46 发布

阅读量332

点赞数

分类专栏：大数据机器学习文章标签：机器学习

# 机器学习入门一
安装环境省略。。。
背景：
这个数据集是基于 1990 年加州普查的数据。数据已经有点老（1990 年还能买一个湾区不错的房子），但是它有许多优点，利于学习，所以假设这个数据为最近的。
你的第一个任务是利用加州普查数据，建立一个加州房价模型。这个数据包含每个街区组的人口、收入中位数、房价中位数等指标。街区组是美国调查局发布样本数据的最小地理单位（一个街区通常有 600 到 3000 人）。我们将其简称为“街区”。你的模型要利用这个数据进行学习，然后根据其它指标，预测任何街区的的房价中位数。

1.0 加载数据，也可从网上直接load,方式很多

def load_housing_data():
return pd.read_csv(‘housing.csv’)
housing=load_housing_data()

2.0 对数据的描述

print housing.head()
在这里插入图片描述
print housing.describe()

count 、 mean 、 min 和 max 几行的意思很明显了。注意，空值被忽略了（所以，卧室总数是 20433 而不是 20640）。 std 是标准差（揭示数值的分散度）。25%、50%、75% 展示了对应的分位数：每个分位数指明小于这个值，且指定分组的百分比。例如，25% 的街区的房屋年龄中位数小于 18，而 50% 的小于 29，75% 的小于 37。这些值通常称为第 25 个百分位数（或第一个四分位数），中位数，第 75 个百分位数（第三个四分位数）。
housing.hist(bins=50,figsize=(20,15))
另一种快速了解数据类型的方法是画出每个数值属性的柱状图。柱状图（的纵轴）展示了特定范围的实例的个数。你还可以一次给一个属性画图，或对完整数据集调用 hist() 方法，后者会画出每个数值属性的柱状图。例如，你可以看到略微超过 800 个街区的 median_house_value 值差不多等于 500000 美元。
在这里插入图片描述

注意柱状图中的一些点：
1. 首先，收入中位数貌似不是

最低0.47元/天解锁文章

simon_zhou_test

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习入门一

# 机器学习入门一安装环境省略。。。背景：这个数据集是基于 1990 年加州普查的数据。数据已经有点老（1990 年还能买一个湾区不错的房子），但是它有许多优点，利于学习，所以假设这个数据为最近的。你的第一个任务是利用加州普查数据，建立一个加州房价模型。这个数据包含每个街区组的人口、收入中位数、房价中位数等指标。街区组是美国调查局发布样本数据的最小地理单位（一个街区通常有 600 到...
复制链接

扫一扫