一个完整的数据挖掘项目-纽约市建筑能源之星预测

一、项目目标

使用提供的建筑能源数据开发一个机器学习模型,该模型可以预测建筑物的能源之星得分,然后解释结果以找到最能预测得分的变量。

这是一个受监督的回归机器学习任务:给定一组包含目标(在本例中为分数)的数据,我们的目标是训练可以学习两者之间映射关系的模型。

二、数据处理

dataframe常用操作
机器学习预处理
pandas中dropna()

1)利用pandas与numpy进行dataframe数据清理和格式化

(1)缺失值与异常值处理

(2)转换数据类型

(3)缩放、标准化和归一化

2)利用seaborn与matplotlib进行数据探索性分析

pandas,seaborn与matplotlib学习

(1)单特征与目标之间的相关性分析

(2)双特征与目标之间的相关性分析

有用函数

def remove_collinear_features(x, threshold):
    '''
    Objective:
       删除数据帧中相关系数大于阈值的共线特征。 删除共线特征可以帮助模型泛化并提高模型的可解释性。
        
    Inputs: 
        阈值:删除任何相关性大于此值的特征
    
    Output: 
        仅包含非高共线特征的数据帧
    '''
    
    # 不要删除能源之星得分之间的相关性
    y = x['score
  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值