数据挖掘——HeartbeatClassification

最新推荐文章于 2022-07-06 22:42:29 发布

小米不害怕

最新推荐文章于 2022-07-06 22:42:29 发布

阅读量182

点赞数

分类专栏：数据挖掘文章标签：数据挖掘 python 机器学习

本文链接：https://blog.csdn.net/weixin_42076395/article/details/115282538

版权

数据挖掘专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文介绍了模型融合在数据挖掘比赛中的重要性，包括加权平均、回归与分类概率融合、Stacking/Blending方法，以及Voting在分类模型中的应用。通过实例展示了如何通过这些策略提高预测精度和稳定性。

摘要由CSDN通过智能技术生成

Task 5:模型融合

模型融合是比赛后期的一个重要环节，大致有以下几种方式：

简单加权融合
回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；
分类：投票（Voting)
综合：排序融合(Rank averaging)，log融合
stacking/blending
构建多层模型，并利用预测结果再拟合预测。
boosting/bagging（在xgboost，Adaboost,GBDT中已经用到）:
多树的提升方法

5.4.1回归\分类概率–融合

（1）简单加权平均、结果直接融合

#回归\分类概率-融合：
# （1）简单加权平均，结果直接融合
import numpy as np
import pandas as pd 
from sklearn import metrics

##生成简单的样本数据，test_prei代表第i个模型的预测值
test_pre1=[1.2,3.2,2.1,6.2]
test_pre2=[0.9,3.1,2.0,5.9]
test_pre3=[1.1,2.9,2.2,6.0]

# y_test_true代表模型的真实值
y_test_true=[1,3,2,6]

# #定义结果的加权平均函数
def Weighted_method(test_pre1,test_pre2,test_pre3,w=[1/3,1/3,1/3]):
    Weight_result=w[0]*pd.Series(test_pre1)+w[1]*pd.Series(test_pre2)+w[2]*pd.Series(test_pre3)
    return Weight_result

##各模型的预测结果计算MAE(平均绝对误差，真实值与预测值之间差的绝对值的平均)
print('Pred1 MAE:',metrics.mean_absolute_error(y_test_true,test_pre1))
print('Pred2 MAE:',metrics.mean_absolute_error(y_test_true,test_pre2))
print('Pred3 MAE:',metrics.mean_absolute_error(y_test_true,test_pre3))

##根据加权计算MAE
w=[0.3,0.4,0.3]#定义比重权值
Weight_pre=Weighted_method(test_pre1,test_pre2,test_pre3,w)
print('Weight_pre MAE:',metrics.mean_absolute_error(y_test_true,Weight_pre))

Pred1 MAE: 0.1750000000000001
Pred2 MAE: 0.07499999999999993
Pred3 MAE: 0.10000000000000009
Weight_pre MAE: 0.05750000000000027

# mean平均，median平均
def Mean_method(test_pre1,test_pre2,test_pre3):
    Mean_result=pd.concat([pd.Series(test_pre1),pd.Series(test_pre2),pd.Series(test_pre3)],axis=1).mean(axis=1)
# pd.concat是将两个表的数据拼接，axis=1按列拼接
    return Mean_result
Mean_pre=Mean_method(test_pre1,test_pre2,test_pre3)
print('Mean_pre MAE:',metrics.mean_absolute_error(y_test_true,Mean_pre))

# 定义结果的加权平均函数
def Median_method(test_pre1,test_pre2,test_pre3):
    Median_result=pd.concat([pd.Series(test_pre1),pd.Series(test_pre2),pd.Series(test_pre3)],axis=1).median(axis=1)
    return Median_result
Median_pre=Median_method(test_pre1,test_pre2,test_pre3)
print('Median_pre MAE:',metrics.mean_absolute_error(y_test_true,Median_pre))

Mean_pre MAE: 0.06666666666666693
Median_pre MAE: 0.07500000000000007

（2）Stacking融合（回归）

import numpy as np
import pandas as pd 
from sklearn import metrics
# (2)Stacking融合（回归）
from sklearn import linear_model

def Stacking_method(train_reg1,train_reg2,train_reg3,y_train_true,test_pre1,test_pre2,test_pre3,model_L2=linear_model.LinearRegression()):
    model_L2.fit(pd.concat([pd.Series(train_reg1),pd.Series(train_reg2),pd.Series(train_reg3)],axis=1).values,y_train_true)
    Stacking_result=model_L2.predict(pd.concat([pd.Series(test_pre1),pd.Series(test_pre2),pd.Series(test_pre3)],axis=1).values)
    return Stacking_result
# pd.cancat:相同字段的表首位相接
# #生成一些简单的样本数据，test_prei代表第i个模型的预测值
train_reg1=[3.2,8.2,9.1,5.2]
train_reg2=[2.9,8.1,9.0,4.9]
train_reg3=[3.1,7.9,9.2,5.0]
# y_train_true代表模型训练集的真实值
y_train_true=[3,8,9,5]
# 测试集数据
test_pre1=[1.2,3.2,2.1,6.2]
test_pre2=[0.9,3.1,2.0,5.9]
test_pre3=[1.1,2.9,2.2,6.0]
# y_test_true代表模型测试集的真实值
y_test_true=[1,3,2,6]

model_L2=linear_model.LinearRegression()
Stacking_pre=Stacking_method(train_reg1,train_reg2,train_reg3,y_train_true,#用来训练的数据
                            test_pre1,test_pre2,test_pre3,model_L2)#用来测试的数据
print('Stacking_pre MAE:',metrics.mean_absolute_error(y_test_true,Stacking_pre))

Stacking_pre MAE: 0.042134831460675204
可以发现模型结果相对于之前有进一步的提升，这是我们需要注意的一点是，对于第二层Stacking的模型不宜选取的过于复杂，这样会导致模型在训练集上过拟合，从而使得在测试集上并不能达到很好的效果。

5.4.2分类模型融合

import numpy as np
import lightgbm as lgb
from sklearn.datasets import make_blobs
from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_moons
from sklearn.metrics import accuracy_score,roc_auc_score
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import StratifiedKFold

（1）Voting投票机制
Voting即投票机制，分为软投票和硬投票两种，其原理采用少数服从多数的思想。

# 硬投票：对多个模型直接进行投票，不区分模型结果的相对重要度，最终投票数最多的
# 的类为最终被预测的类

iris=datasets.load_iris()

x=iris.data
y=iris.target
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3)

clf1=lgb.LGBMClassifier(learning_rate=0.1,n_estimators=150,max_depth=3,min_child_weight=2,subsample=0.7,
                       colsample_bytree=0.6,objective='binary:logistic')
clf2=RandomForestClassifier(n_estimators=200,max_depth=10,min_samples_split=10,
                           min_samples_leaf=63,oob_score=True)
clf3=SVC(C=0.1)

# 硬投票
eclf=VotingClassifier(estimators=[('lgb',clf1),('rf',clf2),('svc',clf3)],voting='hard')
for clf,label in zip([clf1,clf2,clf3,eclf],['LGB','Random Forest','SVM','Ensemble']):
    scores=cross_val_score(clf,x,y,cv=5,scoring='accuracy')#cv=5:选择每次测试折数
    print('Accuracy:%0.2f (+/- %0.2f)[%s]'%(scores.mean(),scores.std(),label))
#     评分估计的平均得分和95%置信区间

Accuracy:0.95 (+/- 0.05)[LGB]
Accuracy:0.33 (+/- 0.00)[Random Forest]
Accuracy:0.92 (+/- 0.03)[SVM]
Accuracy:0.92 (+/- 0.07)[Ensemble]
（2）分类的Stacking\Blending融合：
stacking是一种分层模型集成框架。

以两层为例，第一层由多个基学习器组成，其输入为原始训练集，第二层的模型则是以第一层基学习器的输出作为训练集进行再训练，从而得到完整的stacking模型, stacking两层模型都使用了全部的训练数据。

'''
5-Fold Stacking
'''
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import ExtraTreesClassifier,GradientBoostingClassifier
import pandas as pd
#创建训练的数据集
data_0 = iris.data
data = data_0[:100,:]

target_0 = iris.target
target = target_0[:100]

#模型融合中使用到的各个单模型
clfs = [LogisticRegression(solver='lbfgs'),
        RandomForestClassifier(n_estimators=5, n_jobs=-1, criterion='gini'),
        ExtraTreesClassifier(n_estimators=5, n_jobs=-1, criterion='gini'),
        ExtraTreesClassifier(n_estimators=5, n_jobs=-1, criterion='entropy'),
        GradientBoostingClassifier(learning_rate=0.05, subsample=0.5, max_depth=6, n_estimators=5)]
 
#切分一部分数据作为测试集
X, X_predict, y, y_predict = train_test_split(data, target, test_size=0.3, random_state=2020)

dataset_blend_train = np.zeros((X.shape[0], len(clfs)))
dataset_blend_test = np.zeros((X_predict.shape[0], len(clfs)))

#5折stacking
n_splits = 5
skf = StratifiedKFold(n_splits)
skf = skf.split(X, y)

for j, clf in enumerate(clfs):
    #依次训练各个单模型
    dataset_blend_test_j = np.zeros((X_predict.shape[0], 5))
    for i, (train, test) in enumerate(skf):
        #5-Fold交叉训练，使用第i个部分作为预测，剩余的部分来训练模型，获得其预测的输出作为第i部分的新特征。
        X_train, y_train, X_test, y_test = X[train], y[train], X[test], y[test]
        clf.fit(X_train, y_train)
        y_submission = clf.predict_proba(X_test)[:, 1]
        dataset_blend_train[test, j] = y_submission
        dataset_blend_test_j[:, i] = clf.predict_proba(X_predict)[:, 1]
    #对于测试集，直接用这k个模型的预测值均值作为新的特征。
    dataset_blend_test[:, j] = dataset_blend_test_j.mean(1)
    print("val auc Score: %f" % roc_auc_score(y_predict, dataset_blend_test[:, j]))

clf = LogisticRegression(solver='lbfgs')
clf.fit(dataset_blend_train, y)
y_submission = clf.predict_proba(dataset_blend_test)[:, 1]

print("Val auc Score of Stacking: %f" % (roc_auc_score(y_predict, y_submission)))

val auc Score: 1.000000
val auc Score: 0.500000
val auc Score: 0.500000
val auc Score: 0.500000
val auc Score: 0.500000
Val auc Score of Stacking: 1.000000

Blending，其实和Stacking是一种类似的多层模型融合的形式

其主要思路是把原始的训练集先分成两部分，比如70%的数据作为新的训练集，剩下30%的数据作为测试集。
在第一层，我们在这70%的数据上训练多个模型，然后去预测那30%数据的label，同时也预测test集的label。
在第二层，我们就直接用这30%数据在第一层预测的结果做为新特征继续训练，然后用test集第一层预测的label做特征，用第二层训练的模型做进一步预测

- 优点在于：
比stacking简单（因为不用进行k次的交叉验证来获得stacker feature）
避开了一个信息泄露问题：generlizers和stacker使用了不一样的数据集
- 缺点在于：
使用了很少的数据（第二阶段的blender只使用training set10%的量）
blender可能会过拟合
stacking使用多次的交叉验证会比较稳健

'''
Blending
'''
 
#创建训练的数据集
#创建训练的数据集
data_0 = iris.data
data = data_0[:100,:]

target_0 = iris.target
target = target_0[:100]
 
#模型融合中使用到的各个单模型
clfs = [LogisticRegression(solver='lbfgs'),
        RandomForestClassifier(n_estimators=5, n_jobs=-1, criterion='gini'),
        RandomForestClassifier(n_estimators=5, n_jobs=-1, criterion='entropy'),
        ExtraTreesClassifier(n_estimators=5, n_jobs=-1, criterion='gini'),
        #ExtraTreesClassifier(n_estimators=5, n_jobs=-1, criterion='entropy'),
        GradientBoostingClassifier(learning_rate=0.05, subsample=0.5, max_depth=6, n_estimators=5)]

#切分一部分数据作为测试集
X, X_predict, y, y_predict = train_test_split(data, target, test_size=0.3, random_state=2020)

#切分训练数据集为d1,d2两部分
X_d1, X_d2, y_d1, y_d2 = train_test_split(X, y, test_size=0.5, random_state=2020)
dataset_d1 = np.zeros((X_d2.shape[0], len(clfs)))
dataset_d2 = np.zeros((X_predict.shape[0], len(clfs)))
 
for j, clf in enumerate(clfs):
    #依次训练各个单模型
    clf.fit(X_d1, y_d1)
    y_submission = clf.predict_proba(X_d2)[:, 1]
    dataset_d1[:, j] = y_submission
    #对于测试集，直接用这k个模型的预测值作为新的特征。
    dataset_d2[:, j] = clf.predict_proba(X_predict)[:, 1]
    print("val auc Score: %f" % roc_auc_score(y_predict, dataset_d2[:, j]))

#融合使用的模型
clf = GradientBoostingClassifier(learning_rate=0.02, subsample=0.5, max_depth=6, n_estimators=30)
clf.fit(dataset_d1, y_d2)
y_submission = clf.predict_proba(dataset_d2)[:, 1]
print("Val auc Score of Blending: %f" % (roc_auc_score(y_predict, y_submission)))

val auc Score: 1.000000
val auc Score: 1.000000
val auc Score: 1.000000
val auc Score: 1.000000
val auc Score: 1.000000
Val auc Score of Blending: 1.000000

模型融合是数据挖掘比赛后期上分的主要方式，尤其是进行队伍合并后，模型融合有很多优势。总结一下三个方面：

结果层面的融合，这种是最常见的融合方法，其可行的融合方法也有很多，比如根据结果的得分进行加权融合，还可以做Log，exp处理等。在做结果融合的时候。有一个很重要的条件是模型结果的得分要比较近似但结果的差异要比较大，这样的结果融合往往有比较好的效果提升。如果不满足这个条件带来的效果很低，甚至是负效果。

特征层面的融合，这个层面叫融合融合并不准确，主要是队伍合并后大家可以相互学习特征工程。如果我们用同种模型训练，可以把特征进行切分给不同的模型，然后在后面进行模型或者结果融合有时也能产生比较好的效果。

模型层面的融合，模型层面的融合可能就涉及模型的堆叠和设计，比如加stacking，部分模型的结果作为特征输入等，这些就需要多实验和思考了，基于模型层面的融合最好不同模型类型要有一定的差异，用同种模型不同的参数的收益一般是比较小的。

坚持。