一个完整的数据挖掘项目-纽约市建筑能源之星预测

最新推荐文章于 2022-06-01 23:39:39 发布

田田天天甜甜

最新推荐文章于 2022-06-01 23:39:39 发布

阅读量897

点赞数

分类专栏：完整的机器学习项目

本文链接：https://blog.csdn.net/qq_39751437/article/details/102909603

版权

文章目录

一、项目目标
二、数据处理
三、利用sklearn进行特征工程与选择
四、利用sklearn机器学习模型构建
五、利用sklearn进行模型调参与评估优化模型
六、项目总结

一、项目目标

使用提供的建筑能源数据开发一个机器学习模型，该模型可以预测建筑物的能源之星得分，然后解释结果以找到最能预测得分的变量。

这是一个受监督的回归机器学习任务：给定一组包含目标（在本例中为分数）的数据，我们的目标是训练可以学习两者之间映射关系的模型。

二、数据处理

dataframe常用操作
 机器学习预处理
 pandas中dropna()

1）利用pandas与numpy进行dataframe数据清理和格式化

（1）缺失值与异常值处理

（2）转换数据类型

（3）缩放、标准化和归一化

2）利用seaborn与matplotlib进行数据探索性分析

pandas，seaborn与matplotlib学习

（1）单特征与目标之间的相关性分析

（2）双特征与目标之间的相关性分析

有用函数

def remove_collinear_features(x, threshold):
    '''
    Objective:
       删除数据帧中相关系数大于阈值的共线特征。 删除共线特征可以帮助模型泛化并提高模型的可解释性。
        
    Inputs: 
        阈值：删除任何相关性大于此值的特征
    
    Output: 
        仅包含非高共线特征的数据帧
    '''
    
    # 不要删除能源之星得分之间的相关性
    y = x['score

最低0.47元/天解锁文章

田田天天甜甜

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
一个完整的数据挖掘项目-纽约市建筑能源之星预测

文章目录一、项目目标二、数据处理1）利用pandas与numpy进行dataframe数据清理和格式化（1）缺失值与异常值处理（2）转换数据类型（3）缩放、标准化和归一化2）利用seaborn与matplotlib进行数据探索性分析（1）单特征与目标之间的相关性分析（2）双特征与目标之间的相关性分析三、利用sklearn进行特征工程与选择1）依据模型预测结果来选择特征2）去除共线特征3）根据相关系...
复制链接

扫一扫