机器学习笔记（三）：一个完整的机器学习项目

最新推荐文章于 2024-03-17 20:16:53 发布

Ding_xiaofei

最新推荐文章于 2024-03-17 20:16:53 发布

阅读量1.1k

点赞数

分类专栏：机器学习编码

本文链接：https://blog.csdn.net/Ding_xiaofei/article/details/81022318

版权

本文是机器学习项目笔记，讲述了如何在实际项目中进行数据探索，包括查找属性关联，处理缺失值，以及转换文本和类别属性。通过计算属性间的相关系数，发现与房价中位数高度相关的特征，并通过属性组合创建更有信息量的特征。此外，介绍了如何使用Scikit-Learn的Imputer处理缺失值，以及LabelEncoder转换类别属性。

摘要由CSDN通过智能技术生成

开篇

波折了一个多月，顺利在华为实习，在晚上加班的空余时间继续刷我的机器学习笔记。

要点提示

缺失值填充

查找关联

前面我们通过画图分析了一些数据的相关属性。因为数据集并不是非常大，我们可以很容易地使用corr()方法计算出每对属性间的标准相关系数（standard correlation coefficient，也称作皮尔逊相关系数）：

corr_matrix = housing.corr()

现在来看下每个属性和房价中位数的关联度：

>>> corr_matrix["median_house_value"].sort_values(ascending=False)
median_house_value    1.000000
median_income         0.687170
total_rooms           0.135231
housing_median_age    0.114220
households            0.064702
total_bedrooms        0.047865
population           -0.026699
longitude            -0.047279
latitude             -0.142826
Name: median_house_value, dtype: float64

相关系数的范围是 -1 到 1。当接近 1 时，意味强正相关；例如，当收入中位数增加时，房价中位数也会增加。当相关系数接近 -1 时，意味强负相关；你可以看到，纬度和房价中位数有轻微的负相关性（即，越往北，房价越可能降低）。最后，相关系数接近 0，意味没有线性相关性。图 2-14 展示了相关系数在横轴和纵轴之间的不同图形。

警告：相关系数只测量线性关系（如果x上升，y则上升或下降）。相关系数可能会完全忽略非线性关系（例如，如果x接近 0，则y值会变高）。在上面图片的最后一行中，他们的相关系数都接近于 0，尽管它们的轴并不独立：这些就是非线性关系的例子。另外，第二行的相关系数等于 1 或 -1；这和斜率没有任何关系。例如，你的身高（单位是英寸）与身高（单位是英尺或纳米）的相关系数就是 1。

另一种检测属性间相关系数的方法是使用 Pandas 的scatter_matrix函数，它能画出每个数值属性对每个其它数值属性的图。因为现在共有 11 个数值属性，你可以得到11 ** 2 = 121张图，在一页上画不下，所以只关注几个和房价中位数最有可能相关的属性

from pandas.tools.plotting import scatter_matrix

attributes = ["median_house_value", "median_income", "total_rooms",
              "housing_median_age"]
scatter_matrix(housing[attributes], figsize=(12, 8))