机器学习项目实战-能源利用率2-建模

最新推荐文章于 2023-03-30 20:48:57 发布

弎见

最新推荐文章于 2023-03-30 20:48:57 发布

阅读量961

点赞数 1

分类专栏：机器学习进阶文章标签：算法机器学习 python 调参集成算法

本文链接：https://blog.csdn.net/sanjianjixiang/article/details/104691062

版权

该博客讲述了通过预处理数据、建立基础模型、调参和评估，提高能源利用率的机器学习项目。尝试了多种算法如线性回归、SVM、随机森林等，发现随机森林和集成算法表现较好。通过RandomizedSearchCV和GridSearchCV进行调参，最终模型性能提升了约10%。

摘要由CSDN通过智能技术生成

接上一篇: [[ 机器学习项目实战-能源利用率1-数据预处理 ]]

* 导入预处理数据

import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
pd.options.mode.chained_assignment = None
pd.set_option('display.max_columns', 50)

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
plt.rcParams['font.size'] = 24
sns.set(font_scale = 2)

train_features = pd.read_csv('data/training_features.csv')
test_features = pd.read_csv('data/testing_features.csv')
train_labels = pd.read_csv('data/training_labels.csv')
test_labels = pd.read_csv('data/testing_labels.csv')
print(train_features.shape, '\t', test_features.shape)

train_features.head(8)

(6622, 64) (2839, 64)
在这里插入图片描述

*.1 缺失值填充

在sklearn中，可以使用Scikit-learn Imputer object来进行缺失值填充，对于测试集我们使用数据集中的结果来进行填充，目的在于data leakage

from sklearn.imputer import SimpleImputer

imputer = SimpleImputer(strategy = 'median')
imputer.fit(train_features)

X = imputer.transform(train_features)
X_test = imputer.transform(test_features)

print('Missing values in training features: ', np.sum(np.isnan(X)))
print('Missing values in testing features: ', np.sum(np.isnan(X_test)))

print(np.where(~np.isfinite(X)))
print(np.where(~np.isfinite(X_test)))

Missing values in training features: 0
Missing values in testing features: 0
(array([], dtype=int64), array([], dtype=int64))
(array([], dtype=int64), array([], dtype=int64))

*.2 特征归一化

from sklearn.preprocessing import MinMaxScaler  # StandardScaler
minmax_scaler = MinMaxScaler()
minmax_scaler.fit(X)
X = minmax_scaler.transform(X)
X_test = minmax_scaler.transform(X_test)

y = np.array(train_labels).reshape((-1, ))
y_test = np.array(test_labels).reshape((-1, ))

四. 建立基础模型, 尝试多种算法

4.1 建立一个Baseline

在建模之前，我们得有一个最坏的打算，就是模型起码得有点作用才行。

def mae(y_true, y_pred):
	return np.mean(abs(y_true - y_pred))
baseline_guess = np.

最低0.47元/天解锁文章

弎见

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录