Datawhale 集成学习 Task07：投票法的原理和案例分析

最新推荐文章于 2021-12-01 09:08:24 发布

Andrew_zjc

最新推荐文章于 2021-12-01 09:08:24 发布

阅读量318

点赞数 1

分类专栏：笔记文章标签：机器学习

本文链接：https://blog.csdn.net/Andrew_zjc/article/details/115681757

版权

笔记专栏收录该内容

32 篇文章 3 订阅

订阅专栏

投票法顾名思义，主要分为人人平等的硬投票和充分考虑身份地位的软投票。分类的机器学习算法输出有两种类型：一种是直接输出类标签，另外一种是输出类概率，使用前者进行投票叫做硬投票(Majority/Hard voting)，使用后者进行分类叫做软投票(Soft voting)。 sklearn中的VotingClassifier是投票法的实现。

老规矩，把这次学习的代码跑一遍：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import RepeatedStratifiedKFold
from sklearn.model_selection import cross_val_score

def get_dataset():
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=2)
return X,y

get a voting ensemble of models

def get_voting():
# define the base models
models = list()
models.append((‘knn1’, KNeighborsClassifier(n_neighbors=1)))
models.append((‘knn3’, KNeighborsClassifier(n_neighbors=3)))
models.append((‘knn5’, KNeighborsClassifier(n_neighbors=5)))
models.append((‘knn7’, KNeighborsClassifier(n_neighbors=7)))
models.append((‘knn9’, KNeighborsClassifier(n_neighbors=9)))
# define the voting ensemble
ensemble = VotingClassifier(estimators=models, voting=‘hard’)
return ensemble

get a list of models to evaluate

def get_models():
models = dict()
models[‘knn1’] = KNeighborsClassifier(n_neighbors=1)
models[‘knn3’] = KNeighborsClassifier(n_neighbors=3)
models[‘knn5’] = KNeighborsClassifier(n_neighbors=5)
models[‘knn7’] = KNeighborsClassifier(n_neighbors=7)
models[‘knn9’] = KNeighborsClassifier(n_neighbors=9)
models[‘hard_voting’] = get_voting()
return models

evaluate a give model using cross-validation

def evaluate_model(model, X, y):
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
scores = cross_val_score(model, X, y, scoring=‘accuracy’, cv=cv, n_jobs=-1, error_score=‘raise’)
return scores

define dataset

X, y = get_dataset()

get the models to evaluate

models = get_models()

evaluate the models and store results

results, names = list(), list()
for name, model in models.items():
scores = evaluate_model(model, X, y)
results.append(scores)
names.append(name)
print(’>%s %.3f (%.3f)’ % (name, np.mean(scores), np.std(scores)))

plot model performance for comparison

plt.boxplot(results, labels=names, showmeans=True)
plt.show()

结果为：
在这里插入图片描述

Andrew_zjc

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
Datawhale 集成学习 Task07：投票法的原理和案例分析

投票法的思路投票法是集成学习中常用的技巧，可以帮助我们提高模型的泛化能力，减少模型的错误率。举个例子，在航空航天领域，每个零件发出的电信号都对航空器的成功发射起到重要作用。如果我们有一个二进制形式的信号：11101100100111001011011011011在传输过程中第二位发生了翻转10101100100111001011011011011这导致的结果可能是致命的。一个常用的纠错方法是重复多次发送数据，并以少数服从多数的方法确定正确的传输数据。一般情况下，错误总是发生在局部，因此融合多个数据
复制链接

扫一扫