集成学习-Blending算法

最新推荐文章于 2024-04-11 12:46:13 发布

很随便的wei

最新推荐文章于 2024-04-11 12:46:13 发布

阅读量704

点赞数

分类专栏：机器学习 python 文章标签：机器学习算法

本文链接：https://blog.csdn.net/guowei_huai/article/details/116676403

版权

机器学习同时被 2 个专栏收录

13 篇文章 5 订阅

订阅专栏

python

12 篇文章 0 订阅

订阅专栏

一、理论

将训练数据进行划分，划分之后的训练数据一部分训练基模型，一部分经模型预测后作为新的特征训练元模型。测试数据同样经过基模型预测，形成新的测试数据。最后，元模型对新的测试数据进行预测。Blending框架图如下所示：
在这里插入图片描述
步骤：
第一步：将原始训练数据划分为训练集和验证集。

第二步：使用训练集对训练T个不同的模型。

第三步：使用T个基模型，对验证集进行预测，结果作为新的训练数据。

第四步：使用新的训练数据，训练一个元模型。

第五步：使用T个基模型，对测试数据进行预测，结果作为新的测试数据。

第六步：使用元模型对新的测试数据进行预测，得到最终结果。

二、优缺点

2.1 优点

运行比stacking快
减少信息泄漏，第一层的generalizers和第二层的stackers使用了不同的数据

2.2 缺点

对数据的利用不充分
最终模型既容易受holdout set的数据顺序影响*，又可能对holdout set过拟合
相比stacking，波动性更大

三、代码运行

#导入所需包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
import seaborn as sns
warnings.filterwarnings('ignore')

#导入sklearn包
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression

#导入数据
iris = load_iris()
iris_data = pd.DataFrame(iris.data, columns=iris.feature_names)
iris_data['target'] = iris.target
iris_data = iris_data.loc[iris_data.target.isin([0, 1])]
X = iris_data.drop('target', axis=1)
y = iris_data.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=201)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.3, random_state=201)

生成predictions

X_val1 = pd.concat([X_val, val_features], axis=1)
X_test1 = pd.concat([X_test, test_features], axis=1)

lr = LogisticRegression()
lr.fit(X_val1, y_val)
scores = cross_val_score(lr, X_test1, y_test, cv=5)
print('原始数据+特征分数：%.3f(%.3f)'%(np.mean(scores),np.std(scores)))

lr.fit(X_val, y_val)
scores = cross_val_score(lr, X_test, y_test, cv=5)
print('原始数据分数：%.3f(%.3f)'%(np.mean(scores),np.std(scores)))

lr.fit(val_features, y_val)
scores = cross_val_score(lr, test_features, y_test, cv=5)
print('特征分数：%.3f(%.3f)'%(np.mean(scores),np.std(scores)))