天池大赛------工业蒸汽量预测（初学者专用，简单易懂）

最新推荐文章于 2022-08-27 16:15:08 发布

wlq_1024

最新推荐文章于 2022-08-27 16:15:08 发布

阅读量1.8k

点赞数 7

分类专栏：机器学习文章标签：天池大赛工业蒸汽预测

本文链接：https://blog.csdn.net/qq_42546127/article/details/103356251

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

1.导包

# 警告不输出
import warnings
warnings.filterwarnings('ignore')

import numpy as np

import pandas as pd

from scipy import stats

import matplotlib.pyplot as plt
%matplotlib inline

import seaborn as sns

from sklearn.linear_model import LinearRegression,Lasso,Ridge,RidgeCV,ElasticNet

from sklearn.neighbors import KNeighborsRegressor

from sklearn.ensemble import GradientBoostingRegressor,RandomForestRegressor,AdaBoostRegressor,ExtraTreesRegressor

from xgboost import XGBRegressor

from lightgbm import LGBMRegressor

# 支持向量机
from sklearn.svm import SVR

from sklearn.metrics import mean_squared_error

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import MinMaxScaler,StandardScaler,PolynomialFeatures

2.加载数据及特征探索

2.1数据聚合

train = pd.read_csv('./zhengqi_train.txt',sep='\t')
test = pd.read_csv('./zhengqi_test.txt',sep='\t')

train['origin'] = 'train'
test['origin'] = 'test'

data_all = pd.concat([train,test])

print(data_all.shape)
data_all.head()

在这里插入图片描述

2.2特征探索

# 总共有28个特征，将不重要的特征就行筛选、删除
# 查看特征分布情况，将训练和测试中分布不均匀的同一特征进行筛选。、删除
plt.figure(figsize=(9,38 * 6))

for i,col in enumerate(data_all.columns[:-2]):
    
    cond_train = data_all['origin'] == 'train'
    train_col = data_all[col][cond_train]  # 训练数据
    
    cond_test = data_all['origin'] == 'test'
    test_col = data_all[col][cond_test]  # 测试数据
    
    axes = plt.subplot(38,1,i+1)
    ax = sns.kdeplot(train_col,shade = True,ax = axes)
    sns.kdeplot(test_col,shade = True,ax = ax)
    plt.legend(['train','test'])
    plt.xlabel(col)

在这里插入图片描述

# 绘制分布图
plt.figure(figsize=(9,38 * 6))
for col in data_all.columns[:-2]:
    g = sns.FacetGrid(data_all,col='origin')
    g.map(sns.distplot,col)

在这里插入图片描述

# 观察所画图形，筛选出要删除的特征
drop_labels = ["V5","V9","V11","V17","V22","V28"] 

data_all.drop(drop_labels,axis=1,inplace=True)

2.3相关系数

# 相关性系数corr
corr = data_all.corr()

# 通过相关性系数，找到7个相关性不大的特征
cond = corr.loc['target'].abs() < 0.15

drop_labels = corr.loc['target'].index[cond]

drop_labels

# 查看了属性的分布，将分布不好的进行删除
drop_labels = ['V14','V21','V19','V35',]
data_all.drop(drop_labels,axis=1,inplace=True)

# 找出相关程度
plt.figure(figsize=(20, 16))  # 指定绘图对象宽度和高度
mcorr = train.corr()  # 相关系数矩阵，即给出了任意两个变量之间的相关系数
mask = np.zeros_like(mcorr, dtype=np.bool)  # 构造与mcorr同维数矩阵 为bool型


mask[np.triu_indices_from(mask)] = True  # 右对角线上部分设置为True

cmap = sns.diverging_palette(220, 10, as_cmap=True)  # 设置颜色
g = sns.heatmap(mcorr, mask=mask, cmap=cmap, square=True, annot=True, fmt='0.2f')  # 热力图（看两两相似度）
plt.show()

在这里插入图片描述

3.数据处理

3.1标准化操作

# 查看数据信息
data_all[data_all['origin'] == 'train'].describe()

在这里插入图片描述

data_all[data_all['origin'] == 'test'].describe()

在这里插入图片描述

stand = StandardScaler()

# 获取数据
data = data_all.iloc[:,:-2]

data2 = stand.fit_transform(data)
data2

在这里插入图片描述

cols = data_all.columns
data_all_std = pd.DataFrame(data2,columns=cols[:-2])

data_all.index = np.arange(4813)
data_all

在这里插入图片描述

data_all_std = pd.merge(data_all_std,data_all.iloc[:,-2:],right_index=True,left_index=True)
data_all_std

在这里插入图片描述

data_all_std.describe()

在这里插入图片描述

3.2过滤异常值

# 查找异常值

ridge = RidgeCV(alphas=[0.0001,0.001,0.01,0.1,0.2,0.5,1,2,3,4,5,10,20,30,50])

cond = data_all_std['origin'] == 'train'

X_train = data_all_std[cond].iloc[:,:-2]

y_train = data_all_std[cond]['target'] #真实值

ridge.fit(X_train,y_train)  # 算法拟合数据，结果不可能100%完全拟合

#进行数据预测，与真实值进行比较，将差距大的值进行筛选，删除
y_ = ridge.predict(X_train)  #预测值


cond = (y_train - y_).abs() > y_train.std() * 0.9


plt.figure(figsize=(12,6))

axes = plt.subplot(1,3,1)
axes.scatter(y_train,y_)
axes.scatter(y_train[cond],y_[cond],c = 'red',s = 20)

axes = plt.subplot(1,3,2)
axes.scatter(y_train,y_train - y_)
axes.scatter(y_train[cond],(y_train - y_)[cond],c = 'red',s = 20)

axes = plt.subplot(1,3,3)
(y_train - y_).plot.hist(bins = 50,ax = axes)
(y_train - y_).loc[cond].plot.hist(bins = 50,ax = axes,color = 'red')


# 将异常值过滤
drop_index = cond[cond].index

data_all_std.drop(drop_index,axis = 0,inplace=True)

在这里插入图片描述

3.3归一化处理

data = data_all.iloc[:,:-2]

minmaxscaler = MinMaxScaler()

data3 = minmaxscaler.fit_transform(data)


# 归一化的数据
data_all_norm = pd.DataFrame(data3,columns=data_all.columns[:-2])

data_all_norm = pd.merge(data_all_norm,data_all.iloc[:,-2:],left_index= True,right_index=True)


def scale_minmax(data):
    return (data - data.min())/(data.max() - data.min())
    
    
fcols = 6
frows = len(data_all_norm.columns[:10])
plt.figure(figsize=(4*fcols,4*frows))
i=0

for col in data_all_norm.columns[:10]:
    dat = data_all_norm[[col, 'target']].dropna()

#     这条线就是数据分布dist：distribution（分布）
    i+=1
    plt.subplot(frows,fcols,i)
    sns.distplot(dat[col],fit = stats.norm);
    plt.title(col+' Original')
    plt.xlabel('')

#     第二个图：skew统计分析中中一个属性
#     skewness 偏斜系数，对正太分布的度量
    i+=1
    plt.subplot(frows,fcols,i)
    _=stats.probplot(dat[col], plot=plt)#画图，偏析度
    plt.title('skew='+'{:.4f}'.format(stats.skew(dat[col])))
    plt.xlabel('')
    plt.ylabel('')

#     散点图
    i+=1
    plt.subplot(frows,fcols,i)
#     plt.plot(dat[var], dat['target'],'.',alpha=0.5)
    plt.scatter(dat[col],dat['target'],alpha=0.5)
    plt.title('corr='+'{:.2f}'.format(np.corrcoef(dat[col], dat['target'])[0][1]))

#     ！！！对数据进行了处理！！！
#   数据分布图distribution
    i+=1
    plt.subplot(frows,fcols,i)
    trans_var, lambda_var = stats.boxcox(dat[col].dropna()+1)
    trans_var = scale_minmax(trans_var)      
    sns.distplot(trans_var , fit=stats.norm);
    plt.title(col+' Tramsformed')
    plt.xlabel('')

#     偏斜度
    i+=1
    plt.subplot(frows,fcols,i)
    _=stats.probplot(trans_var, plot=plt)
    plt.title('skew='+'{:.4f}'.format(stats.skew(trans_var)))
    plt.xlabel('')
    plt.ylabel('')

#     散点图
    i+=1
    plt.subplot(frows,fcols,i)
    plt.plot(trans_var, dat['target'],'.',alpha=0.5)
    plt.title('corr='+'{:.2f}'.format(np.corrcoef(trans_var,dat['target'])[0][1]))

在这里插入图片描述

# 将数据进行Box-Cox转换
# 统计建模中常用的数据变化
# 数据更加正态化，标准化
for col in data_all_norm.columns[:-2]:
    boxcox,maxlog = stats.boxcox(data_all_norm[col] + 1)
    data_all_norm[col] = scale_minmax(boxcox)
    
    
fcols = 6
frows = len(data_all_norm.columns[:10])
plt.figure(figsize=(4*fcols,4*frows))
i=0

for col in data_all_norm.columns[:10]:
    dat = data_all_norm[[col, 'target']].dropna()

#     这条线就是数据分布dist：distribution（分布）
    i+=1
    plt.subplot(frows,fcols,i)
    sns.distplot(dat[col],fit = stats.norm);
    plt.title(col+' Original')
    plt.xlabel('')

#     第二个图：skew统计分析中中一个属性
#     skewness 偏斜系数，对正太分布的度量
    i+=1
    plt.subplot(frows,fcols,i)
    _=stats.probplot(dat[col], plot=plt)#画图，偏析度
    plt.title('skew='+'{:.4f}'.format(stats.skew(dat[col])))
    plt.xlabel('')
    plt.ylabel('')

#     散点图
    i+=1
    plt.subplot(frows,fcols,i)
#     plt.plot(dat[var], dat['target'],'.',alpha=0.5)
    plt.scatter(dat[col],dat['target'],alpha=0.5)
    plt.title('corr='+'{:.2f}'.format(np.corrcoef(dat[col], dat['target'])[0][1]))

#     ！！！对数据进行了处理！！！
#   数据分布图distribution
    i+=1
    plt.subplot(frows,fcols,i)
    trans_var, lambda_var = stats.boxcox(dat[col].dropna()+1)
    trans_var = scale_minmax(trans_var)      
    sns.distplot(trans_var , fit=stats.norm);
    plt.title(col+' Tramsformed')
    plt.xlabel('')

#     偏斜度
    i+=1
    plt.subplot(frows,fcols,i)
    _=stats.probplot(trans_var, plot=plt)
    plt.title('skew='+'{:.4f}'.format(stats.skew(trans_var)))
    plt.xlabel('')
    plt.ylabel('')

#     散点图
    i+=1
    plt.subplot(frows,fcols,i)
    plt.plot(trans_var, dat['target'],'.',alpha=0.5)
    plt.title('corr='+'{:.2f}'.format(np.corrcoef(trans_var,dat['target'])[0][1]))

在这里插入图片描述

3.4再次过滤异常值

ridge = RidgeCV(alphas=[0.0001,0.001,0.01,0.1,0.2,0.5,1,2,3,4,5,10,20,30,50])

cond = data_all_norm['origin'] == 'train'

X_train = data_all_norm[cond].iloc[:,:-2]
# 真实值
y_train = data_all_norm[cond]['target']
# 算法拟合数据和目标值的时候，不可能100%拟合
ridge.fit(X_train,y_train)
# 预测，预测值肯定会和真实值有一定的偏差，偏差特别大，当成异常值
y_ = ridge.predict(X_train)

cond = abs(y_ - y_train) > y_train.std() * 0.9
print(cond.sum())
# 画图
plt.figure(figsize=(12,6))
axes = plt.subplot(1,3,1)
axes.scatter(y_train,y_)
axes.scatter(y_train[cond],y_[cond],c = 'red',s = 20)

axes = plt.subplot(1,3,2)
axes.scatter(y_train,y_train - y_)
axes.scatter(y_train[cond],(y_train - y_)[cond],c = 'red')

axes = plt.subplot(1,3,3)
# _ = axes.hist(y_train,bins = 50)
(y_train - y_).plot.hist(bins = 50,ax = axes)
(y_train - y_).loc[cond].plot.hist(bins = 50,ax = axes,color = 'r')


index = cond[cond].index

data_all_norm.drop(index,axis = 0,inplace=True)

在这里插入图片描述

4预测数据

estimators = {}
# estimators['forest'] = RandomForestRegressor(n_estimators=300)
# estimators['gbdt'] = GradientBoostingRegressor(n_estimators=300)
estimators['ada'] = AdaBoostRegressor(n_estimators=300)
estimators['extreme'] = ExtraTreesRegressor(n_estimators=300)
estimators['svm_rbf'] = SVR(kernel='rbf')
# estimators['light'] = LGBMRegressor(n_estimators=300)
# estimators['xgb'] = XGBRegressor(n_estimators=300)



cond = data_all_norm['origin'] == 'train'
X_train = data_all_norm[cond].iloc[:,:-2]
y_train = data_all_norm[cond]['target']

cond = data_all_norm['origin'] == 'test'
X_test = data_all_norm[cond].iloc[:,:-2]



# 一个算法预测结果，将结果合并
result = []
for key,model in estimators.items():
    model.fit(X_train,y_train)
    y_ = model.predict(X_test)
    if key == 'svm_rbf':
        result.append(y_)
    result.append(y_)

y_ = np.mean(result,axis = 0)    



# 将预测结果y_加入到test的target中，把所有数据当做整体多次学习预测
data_all_norm.set_index(np.arange(data_all_norm.shape[0]),inplace=True)
for i in range(30):
    cond = data_all_norm['origin'] == 'train'
    train_target = list(data_all_norm[cond]['target'])
    test_target = list(y_)
    target_all = train_target + test_target
    target_all = pd.Series(target_all)
    
    data_all_norm = data_all_norm.drop(['target'],axis = 1)
    data_all_norm['target'] = target_all
    
    X_train = data_all_norm.iloc[:,:-2]
    y_train = data_all_norm['target']

    cond = data_all_norm['origin'] == 'test'
    X_test = data_all_norm[cond].iloc[:,:-2]
    
    result = []
    for key,model in estimators.items():
        model.fit(X_train,y_train)
        y_ = model.predict(X_test)
        if key == 'svm_rbf':
            result.append(y_)
        result.append(y_)

    y_ = np.mean(result,axis = 0)

pd.Series(y_).to_csv('./predict.txt',index=False)