单一决策树与集成模型（随机森林分类器、梯度提升决策树）的比较

最新推荐文章于 2024-07-15 09:51:19 发布

木水_

最新推荐文章于 2024-07-15 09:51:19 发布

阅读量3.1k

点赞数 1

分类专栏：机器学习文章标签： python 机器学习随机森林梯度提升决策树 class

本文链接：https://blog.csdn.net/m0_37324740/article/details/75503647

版权

机器学习专栏收录该内容

20 篇文章 3 订阅

订阅专栏

集成（Ensemble）分类模型综合考量多个分类器的预测结果，从而做出决策，大体可以分为两种：

一种是利用相同的训练数据同时搭建多个独立的分裂模型，然后通过投票的方式，以少数服从多数的原则作出最终分类的决策，典型的有随机森林分类器（Random Forest Classifier），即在相同的训练数据上同时搭建多棵决策树（Decision Tree），每棵决策树会放弃固定的排序算法，随机选取特征。

另一种是按照一定的次序搭建多个分类模型。模型之间彼此存在依赖关系。后续加入的模型对集成模型的综合性能有所贡献。典型的有梯度提升决策树（Grandient Tree Boosting）。与随机森林分类器模型不同，这里的每棵决策树在生成的过程中都会尽可能降低整体集成模型在训练集上的拟合误差。

以之前决策树模型用的泰坦尼克号的数据为例比较单一决策树与集成模型的预测性能差异。

# 导入pandas，并且重命名为pd。
import pandas as pd

# 通过互联网读取泰坦尼克乘客档案，并存储在变量titanic中。
titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')

# 人工选取pclass、age以及sex作为判别乘客是否能够生还的特征。
X = titanic[['pclass', 'age', 'sex']]
y = titanic['survived']

# 对于缺失的年龄信息，我们使用全体乘客的平均年龄代替，这样可以在保证顺利训练模型的同时，尽可能不影响预测任务。
X['age'].fillna(X['age'].mean(), inplace=True)

# 对原始数据进行分割，25%的乘客数据用于测试。
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state = 33)

# 对类别型特征进行转化，成为特征向量。
from sklearn.feature_extraction import DictVectorizer

vec = DictVectorizer(sparse=False)
X_train = vec.fit_transform(X_train.to_dict(orient='record'))
X_test = vec.transform(X_test.to_dict(orient='record'))

# 使用单一决策树进行模型训练以及预测分析。
from sklearn.tree import DecisionTreeClassifier

dtc = DecisionTreeClassifier()
dtc.fit(X_train, y_train)
dtc_y_pred = dtc.predict(X_test)

# 使用随机森林分类器进行集成模型的训练以及预测分析。
from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)
rfc_y_pred = rfc.predict(X_test)

# 使用梯度提升决策树进行集成模型的训练以及预测分析。
from sklearn.ensemble import GradientBoostingClassifier

gbc = GradientBoostingClassifier()
gbc.fit(X_train, y_train)
gbc_y_pred = gbc.predict(X_test)

# 从sklearn.metrics导入classification_report。
from sklearn.metrics import classification_report

# 输出单一决策树在测试集上的分类准确性，以及更加详细的精确率、召回率、F1指标。
print ('The accuracy of decision tree is', dtc.score(X_test, y_test))
print (classification_report(dtc_y_pred, y_test))

# 输出随机森林分类器在测试集上的分类准确性，以及更加详细的精确率、召回率、F1指标。
print ('The accuracy of random forest classifier is', rfc.score(X_test, y_test))
print (classification_report(rfc_y_pred, y_test))

# 输出梯度提升决策树在测试集上的分类准确性，以及更加详细的精确率、召回率、F1指标。
print ('The accuracy of gradient tree boosting is', gbc.score(X_test, y_test))
print (classification_report(gbc_y_pred, y_test))