机器学习总结一：Bagging之决策树、随机森林原理与案例

yunpeng.zhou

已于 2022-11-14 08:34:31 修改

阅读量802

点赞数

分类专栏：机器学习文章标签：决策树随机森林

于 2022-10-18 17:51:44 首次发布

本文链接：https://blog.csdn.net/a1314_521a/article/details/127393086

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

机器学习算法总结

一、Bagging之决策树、随机森林原理与案例

二、boosting之GBDT、XGBT原理推导与案例

三、SVM原理推导与案例

四、逻辑回归与反欺诈检测案例

五、聚类之K-means

一、Bagging之决策树、随机森林原理与案例

1. 决策树

1.1 简介

决策树(Decision Tree)是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据种总结出决策规则，并利用树状图结构呈现这些规则，以解决分类和回归问题。
决策树算法研究核心内容：
- 如何从数据集中找出最佳分支点
- 如何让决策树停止生长，防止过拟合

1.2 分支原理

使用“贪心策略”，通过每一次局部分裂最优，接近全局最优树
分类树
1. 预测结果 = 叶子节点上少数服从多数
2. 不纯度：用于衡量最佳分枝的指标，分裂后的不纯度越低越好。
3. 不纯度计算
  - 信息增益(ID3)
    $\begin{array}{l} 1.信息量定义f(i):=-log_2P_i\\ 2.信息熵：Entropy(t)=\sum_{i=1}^cp_i(-log_2p_i)\\ \quad 注：某一类别比例*其类别所对应的信息量（相当于整个概率模型系统期望/加权求和，范围[0,1]）\\ \\3.信息增益 = 父节点信息熵 - 对应所有子节点信息熵加权平均\\ \quad InformationGain = Entropy(父节点) - \sum_{t=1}^T\frac{N_t}{N}Entropy(子节点)\\ \quad T: 父节点分裂后子节点个数； \frac{N_t}{N}: 分裂后t节点上的样本数/样本总数(即分裂前父节点样本数)\\ \\ ID3算法缺点：\\ \quad \quad 分支度越高的离散变量往往子节点总信息熵越小(比如训练集中ID字段，分支，每个id分裂后对应的子节点不纯度都为0)\\ \quad \quad 缺失值和连续值不能处理\\ \quad \quad 没有剪枝操作，容易过拟合 \end{array}$
  - 信息增益率(C4.5)
    $\begin{array}{l} 1.目的：修正信息增益对分支度高的特征的偏好\\ 2.信息增益率:gainratio=\frac{InformationGain}{InformationValue}（使用分支度对信息增益偏好分支度高的特征进行惩罚）\\ 3.分支度(IV:Information Value):\\ \quad Information Value = -\sum_{i=1}^kp(v_i)log_2p(v_i)\\ \quad i:表示父节点的第i个子节点；v_i:第i个子节点的样本数；p(v_i):第i个子节点的样本数占父节点样本数\\ \quad 相当于衡量整个分裂情况的信息熵，分支度越高，分裂越多，IV值越大，对信息增益惩罚就越大。 \\ \\ C4.5算法：\\ \quad 使用分支度对信息增益偏好分支度高的特征进行惩罚\\ \quad 增加了对连续变量的处理，对连续列从小到大排序，若连续变量有N个值，c4.5中产生N-1个备选切分点，每一个切分点都代表一种二叉树的切分方案。 \end{array}$
  - gini基尼系数(cart树)
    $\begin{array}{l} 1.基尼系数理解：表示在样本集合中随机选中一个样本是错误分类的概率，范围[0,0.5]\\ \quad Gini=\sum_{i=1}^cp_i(1-p_i)=\sum_{i=1}^cp_i-\sum_{i=1}^cp_i^2=1-\sum_{i=1}^cp_i^2\\ 2.Cart树特点：\\ \quad \quad 1.所有的层都是二叉树\\ \quad \quad 2.大大减少计算量，采用基尼系数，不用进行log运算；\\ \quad \quad \quad ID3和C4.5是多叉树，一次穷尽一个特征列的所有分类信息,含有无用分裂计算，\\ \quad \quad \quad Cart树是二叉树，每次只计算最有利的的一个分裂点 \end{array}$
  不纯度计算示例：
  $\begin{array}{l} 1.设分裂后叶子节点1:[1,1,1,1,1,1]；叶子节点2:[1,1,1,1,1,0]；叶子节点3[1,1,1,0,0,0]\\ 叶子节点1:\\ \quad 信息熵：1*log_21=0\\ \quad 基尼系数:1-1^2=0\\ 叶子节点2:\\ \quad 信息熵:\frac{5}{6}*(-log_2\frac{5}{6})+\frac{1}{6}*(-log_2\frac{1}{6})=0.65\\ \quad 基尼系数:1-[\frac{5}{6}^2+\frac{1}{6}^2]=0.27\\ 叶子节点3:\\ \quad 信息熵:\frac{3}{6}*(-log_2\frac{3}{6})+\frac{3}{6}*(-log_2\frac{3}{6})=1\\ \quad 基尼系数:1-[\frac{3}{6}^2+\frac{3}{6}^2]=0.5\\ \\ 2.假设父节点[1,1,1,1,0,0],\\ 选取a特征分裂后叶子节点为[0,1,1,1,1]和[0],则：\\ 信息增益:\\ [\frac{4}{6}*(-log_2\frac{4}{6})+\frac{2}{6}*(-log_2\frac{2}{6})]_父\\-[\frac{5}{6}[\frac{4}{5}*(-log_2\frac{4}{5})+\frac{1}{5}*(-log_2\frac{1}{5})]+\frac{1}{6}1*(-log_21)]_子=0.14\\ 信息增益率:GainRatio = \frac{InformationGain}{InformatuonValue}=\frac{0.14}{\frac{5}{6}*(-log_2\frac{5}{6})+\frac{1}{6}*(-log_2\frac{1}{6})}=0.24\\ 基尼系数(增益):[1-(\frac{4}{6}^2+\frac{2}{6}^2)]_父-[\frac{5}{6}[1-(\frac{4}{5}^2+\frac{1}{5}^2)]+\frac{1}{6}[1-\frac{1}{1}^2]]_子=0.178\\ \\ 选取b分裂点叶子节点为[1，1，1，1]和[0,0]\\ 信息增益:\\ [\frac{4}{6}*(-log_2\frac{4}{6})+\frac{2}{6}*(-log_2\frac{2}{6})]_父-[\frac{4}{6}[1*(-log_21)]+\frac{2}{6}[1*(-log_21)]]_子=0.91\\ \\ 信息增益率:GainRatio = \frac{InformationGain}{InformatuonValue}=\frac{0.92}{\frac{4}{6}*(-log_2\frac{4}{6})+\frac{2}{6}*(-log_2\frac{2}{6})}=1\\ \\ 基尼系数(增益):[1-(\frac{4}{6}^2+\frac{2}{6}^2)]_父-[\frac{4}{6}[1-\frac{1}{1}^2)]+\frac{2}{6}[1-\frac{1}{1}^2]]_子=0.445\\ 由上可知选择b特征点进行分裂，不管从信息熵还是基尼系数，b特征点增益高于a\\ \\ 叶子节点上不纯度越低，信息熵和基尼系数越小，\\决策树最终优化目标是使分裂后的叶子节点加权求和后总不纯度最低,即衡量不纯度的指标最低(信息熵、基尼系数) \end{array}$
回归树
1. 预测结果 = 叶子节点上标签的平均值/中位数
2. 回归树分裂指标：
  $min_{(D,S)}[\sum_{i\in R_1}(y_i-\hat y_i)^2+\sum_{i\in R_2}(y_i-\hat y_i)^2]\\ D:分裂前数据集;S:某个特征分裂点;\\R1,R2:D数据集以S分裂点进行分裂后生成的两个子节点数据集$

1.3 重要参数

Criterion：用来选择不纯度的计算方法
- 分类树
  1. “entropy”：信息熵
  2. “gini”：基尼系数
- 回归树
  1. “squared_error”：均方误差
  2. “friedman_mse”：改进后的均方误差
  3. “absolute_error”：平均绝对误差
剪枝参数
1. max_depth：限制树的最大深度，超过设定深度的分支全部裁剪，建议=3开始尝试
2. min_samples_left：限定分支后的每个叶子节点至少包含设定值个样本，否则分支不发生(可以输入整数或浮点数，整数建议=5开始，浮点数表示样本量的百分比)
3. min_samples_split：一个节点至少包含设定值个训练样本，才允许被分支
4. max_features：暴力限制分支时考虑特征的个数，可能删除重要的特征
5. min_impurity_decrease：限制信息增益的大小，过小不分支
6. max_leaf_nodes：限制叶子节点的数量
random_state & splitter
1. random_state: 控制估计器的随机性
  
  当’ ’ max_features < n_features ’ '时，算法将在每次拆分中随机选择“max_features”，然后找到其中最好的分裂。
  
  可能会遇到information gain相等的两个features，random_state可以决定我们在这种情况下先从哪个feature上split。
2. splitter
  
  用于在每个节点上选择分支的策略。支持策略是“best”选择最佳拆分和“random”选择
  
  最好的随机分割。
样本权重参数
1. class_weight
  - “{class_label: weight}”:{0:1,1:4}
    
    for four-class multilabel classification weights should be
    [{0: 1, 1: 1}, {0: 1, 1: 5}, {0: 1, 1: 1}, {0: 1, 1: 1}] instead of
    [{1:1}, {2:5}, {3:1}, {4:1}].
  - “balanced”: 权重与输入数据中的类频率成反比
    
    n_samples / (n_classes * np.bincount(y))
2. min_weight_fraction_leaf
  
  默认为0。
  有了权重之后，样本量就不再是单纯地记录数目，而是受输入的权重影响了，因此这时候剪枝，就需要搭配min_ weight_fraction_leaf这个基于权重的剪枝参数来使用。另请注意，基于权重的剪枝参数（例如min_weight_ fraction_leaf）将比不知道样本权重的标准（比如min_samples_leaf）更少偏向主导类。如果样本是加权的，则使用基于权重的预修剪标准来更容易优化树结构，这确保叶节点至少包含样本权重的总和的一小部分。

1.4 决策树优缺点

优点
1. 易于理解，可解释性强
2. 可分类，可回归
3. 可以处理多标签分类
4. 可以处理离散型或连续性特征变量
5. 不受特征量纲影响
缺点
1. 不稳定，数据微小变化，可能导致生成完全不同的树(这就需要集成算法随机森林)
2. 偏向样本比例大的类别
3. 易过拟合，泛化性差，需要剪枝操作
4. 学习规则有限，复杂问题不易于学习(XOR异或问题)

1.5 案例

导包

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# sklearn 内置数据集
from sklearn.datasets import load_breast_cancer,load_digits,load_boston 

# model_selection 用于比较、验证模型和模型参数。
from sklearn.model_selection import train_test_split,KFold,cross_val_score,cross_validate,GridSearchCV

# 特征预处理特征编码
from sklearn.preprocessing import OrdinalEncoder,OneHotEncoder

# 特征预处理缺失值填充
# 单变量插补
from sklearn.impute import SimpleImputer
# 多变量插补
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import MissingIndicator

# feature_selection 用于模型特征选择,主要过滤法，嵌入法和包装法
from sklearn.feature_selection import VarianceThreshold,SelectFromModel,RFE

# tree 树模型
from sklearn.tree import DecisionTreeClassifier

# 评估指标
from sklearn.metrics import accuracy_score

加载数据集

# 训练数据来源 kaggle
# 加载训练集
titanic_train = pd.read_csv('../data/Kaggle-Titanic/train.csv')
titanic_train.columns=['id','是否存活','客户等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票','票价','船仓','登录港口']
titanic_train.info()
# 加载测试集
titanic_test = pd.read_csv('../data/Kaggle-Titanic/test.csv')
titanic_test.columns=['PassengerId','客户等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票','票价','船仓','登录港口']
titanic_test.info()

特征处理(简单处理，输出模型不报错即可,重点记录流程)

# 特征处理
train_y = titanic_train['是否存活']

# 性别编码
ordinal = OrdinalEncoder()
titanic_train['性别'] = ordinal.fit_transform(titanic_train[['性别']])
titanic_test['性别'] = ordinal.transform(titanic_test[['性别']])

# 查看缺失值
missindicator = MissingIndicator(features='all')
miss_matrix = missindicator.fit_transform(titanic_train[['客户等级','性别','年龄','兄弟姐妹个数','父母子女个数','票价']])

# 处理缺失值
# 1.单一变量插值
#simpleImputer = SimpleImputer()
#train_x = simpleImputer.fit_transform(titanic_train[['客户等级','性别','年龄','兄弟姐妹个数','父母子女个数','票价']])

# 2.多变量插值
iterImputer = IterativeImputer(random_state=0)
train_x = iterImputer.fit_transform(titanic_train[['客户等级','性别','年龄','兄弟姐妹个数','父母子女个数','票价']])
test_x = iterImputer.transform(titanic_test[['客户等级','性别','年龄','兄弟姐妹个数','父母子女个数','票价']])

模型训练及预测

# 拆分训练集和验证集
X_train, X_valida, y_train, y_valida  = train_test_split(train_x,train_y,test_size=0.1)

# 决策树模型
dt = DecisionTreeClassifier(
    criterion='gini',
    splitter='best',
    max_depth=None,
    min_samples_split=2,
    min_samples_leaf=1,
    class_weight="balanced")

param_grid = {'criterion':["gini", "entropy", "log_loss"],
              'max_depth':[3,6,8,9,10,11,12,15],
              'min_samples_split':[11,12,13,14,15,16,17,18,19,20]}

# 网格搜索最佳参数
grid_dt = GridSearchCV(    
            estimator=dt,
            param_grid=param_grid,
            scoring='accuracy',
            cv=5)


grid_dt.fit(X_train,y_train)
bdt = grid_dt.best_estimator_
print(f'训练集预测正确率：{accuracy_score(y_train,bdt.predict(X_train))}')
print(f'验证集预测正确率：{accuracy_score(y_valida,bdt.predict(X_valida))}')
''
训练集预测正确率：0.8639200998751561
验证集预测正确率：0.7777777777777778
''

# 保存预测结果, 提交kaggle,测试集准确率72-75%(过拟合)
titanic_test['Survived'] = dt.predict(test_x) 
titanic_test[['PassengerId','Survived']].to_csv('gender_submission.csv',index=False)

2. 随机森林

2.1 概述

集成学习方法：1. 袋装法(bagging)、2. 提升法(boosting)、3. stacking

袋装法代表模型：随机森林

构建多个相互独立的评估器(一般为决策树)，然后对其预测进行平均或多数表决原则来决定集成评估器的结果(用来组成随机森林的分类树们至少都有50%的预测正确率)

2.2 参数

n_estimators=100：基评估器数量，往往越大，模型效果越好(有一定界限)
控制基评估器参数：
- criterion=‘gini’：基评估器计算不纯度指标
- max_depth=None：树的最大深度，超过最大深度的树枝都会被剪掉
- min_samples_split=2：一个节点必须要包含至少min_samples_split个训练样本，这个节点才允许被分枝，否则分枝就不会发生
- min_samples_leaf=1：一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本，否则分枝就不会发生
- min_weight_fraction_leaf=0.0：当sample_weigh 样本权重不一致时，每个叶子节点上最小权重
- max_features=‘sqrt’：max_features限制分枝时考虑的特征个数，超过限制个数的特征都会被舍弃，默认值为总特征个数开平方取整
- max_leaf_nodes=None：限制最大叶子节点数
- min_impurity_decrease=0.0：限制信息增益的大小，信息增益小于设定数值的分枝不会发生
bootstrap=True：代表使用bootstrap有放回随机抽样(每棵决策树训练时使用样本不一样，形成不同的基学习器)
oob_score=False：oob(out of bag data)袋外数据，样本量足够大时，oob占37%，设置为True,可以使用属性oob_score_查看袋外数据测试结果
n_jobs=None：要并行运行的作业数(fit,predict,apply,decision_path)
random_state=None：
1. 控制boostrap过程中样本挑选随机性；
2. max_features < n_features时，特征选择随机性；
3. 决策树splitter为’random’时，寻找最佳分割随机性
verbose=0：Controls the verbosity when fitting and predicting.
warm_start=False：设置为True，开启增量学习
class_weight=None：样本权重(note:输入类型{“balanced”, “balanced_subsample”}, dict or list of dicts)
max_samples=None：从数据集中抽取的最大样本数，int\float

2.3 重要属性及方法

属性
- .estimators_：基评估器集合
- .oob_score：袋外数据测试分数
- .feature_importances_：特征重要性
方法
- apply(x)：返回数据集x分类后所在叶子节点
- fit(X，y)：拟合训练集
- predict(x)：输出预测类别
- predict_proba(x)：返回每个测试样本对应的被分到每一类标签的概率
- score(X，y)：Return the mean accuracy on the given test data and labels

2.4 模型优缺点

优点
1. 在很多数据集上相对其他算法表现良好
2. 在高维数据上，特征随机选择，一部分程度上自动进行了特征选择
3. 支持增量学习，可以进行大规模数据学习
4. 树与树之间相互独立，可以并行计算
5. 模型泛化能力强，综合多个基学习器结果，预测结果稳定，方差低
6. 大规模数据时，不用划分测试集，可以使用袋外数据进行测试
7. 易于理解
缺点
1. 。。。过拟合

2.5 案例

将决策树案例决策树模型改为随机森林，其他操作不修改

# 随机森林模型
rf = RandomForestClassifier(
    n_estimators=100,
    criterion='gini',
    max_depth=None,
    min_samples_split=2,
    min_samples_leaf=1,
    min_weight_fraction_leaf=0.0,
    max_features='sqrt',
    max_leaf_nodes=None,
    min_impurity_decrease=0.0,
    bootstrap=True,
    oob_score=False,
    n_jobs=None,
    random_state=None,
    verbose=0,
    warm_start=False,
    class_weight='balanced_subsample',
    ccp_alpha=0.0,
    max_samples=1.0,
)

param_grid = {
              'n_estimators':[50,70,90,100,120],
              'criterion':["gini", "entropy"],
              'max_depth':[3,6,8,9,10,11],
              'min_samples_split':[5,6,7,8,10,11]}

# 网格搜索最佳参数
grid_dt = GridSearchCV(    
            estimator=rf,
            param_grid=param_grid,
            scoring='accuracy',
            cv=5)

grid_dt.fit(train_x,train_y)
bdt = grid_dt.best_estimator_
grid_dt.best_score_


# 保存预测结果, 提交kaggle,测试集准确率76%(过拟合)
titanic_test['Survived'] = bdt.predict(test_x) 
titanic_test[['PassengerId','Survived']].to_csv('gender_submission.csv',index=False)