建筑能源得分预测报告 解释模型部分 GBDT

本文介绍了如何使用GBDT模型并解释其特征重要性。通过LIME方法进行局部解释,并探讨了基于特征重要性进行特征选择的效果。实验表明,仅依赖重要性选择特征可能不会改善模型性能,同时展示了LIME在解释预测结果上的应用。
摘要由CSDN通过智能技术生成

工具包导入:

# Pandas and numpy for data manipulation
import pandas as pd
import numpy as np

# No warnings about setting value on copy of slice
pd.options.mode.chained_assignment = None
pd.set_option('display.max_columns', 60)

# Matplotlib for visualization
import matplotlib.pyplot as plt
%matplotlib inline

# Set default font size
plt.rcParams['font.size'] = 24

from IPython.core.pylabtools import figsize

# Seaborn for visualization
import seaborn as sns

sns.set(font_scale = 2)

# Imputing missing values
from sklearn.preprocessing import Imputer, MinMaxScaler

# Machine Learning Models
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import GradientBoostingRegressor

from sklearn import tree

# LIME只会对每一个样本进行解释
import lime #需要安装 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple lime
import lime.lime_tabular


import warnings
warnings.filterwarnings("ignore")

读取数据:

先拿到我们上个模型的结果

#上次保存好的数据加载进来
#这些数据集经过test_train_test 
# Read in data into dataframes 
train_features = pd.read_csv('C:/Users/lb/Desktop/data/training_features.csv')
test_features = pd.read_csv('C:/Users/lb/Desktop/data/testing_features.csv')
train_labels = pd.read_csv('C:/Users/lb/Desktop/data/training_labels.csv')
test_labels = pd.read_csv('C:/Users/lb/Desktop/data/testing_labels.csv')

缺失值处理:

# 用中值代替缺失值
imputer = Imputer(strategy='medi
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值