一、项目目标
使用提供的建筑能源数据开发一个机器学习模型,该模型可以预测建筑物的能源之星得分,然后解释结果以找到最能预测得分的变量。
这是一个受监督的回归机器学习任务:给定一组包含目标(在本例中为分数)的数据,我们的目标是训练可以学习两者之间映射关系的模型。
二、数据处理
dataframe常用操作
机器学习预处理
pandas中dropna()
1)利用pandas与numpy进行dataframe数据清理和格式化
(1)缺失值与异常值处理
(2)转换数据类型
(3)缩放、标准化和归一化
2)利用seaborn与matplotlib进行数据探索性分析
(1)单特征与目标之间的相关性分析
(2)双特征与目标之间的相关性分析
有用函数
def remove_collinear_features(x, threshold):
'''
Objective:
删除数据帧中相关系数大于阈值的共线特征。 删除共线特征可以帮助模型泛化并提高模型的可解释性。
Inputs:
阈值:删除任何相关性大于此值的特征
Output:
仅包含非高共线特征的数据帧
'''
# 不要删除能源之星得分之间的相关性
y = x['score