一、随机森林的理解
对于几乎所有的分类问题(图像识别除外,因为对于图像识别问题,目前深度学习是标配),集成模型很多时候是我们的首选。比如构建一个评分卡系统,业界的标配是GBDT或者XGBoost等集成模型,主要因为它的效果确实好,而且稳定。还有一点是这些模型的可解释性也很好,不像深度学习模型就像个黑盒子。
可解释性对于工业界应用来说尤其重要。比如一个模型出错了,我们希望第一时间能够找出问题的根源。但如果模型的可解释性比较差,则很难及时把问题定位出来。举个例子,金融类的应用是直接跟金钱挂钩的,一旦出了问题之后后果不堪设想。所以模型上线之前需要做大量的测试,而且提前要清楚地了解模型里的每个细节以及可能出错之后带来的后果。
那为什么集成模型的可解释性好呢? 这个其实不难理解,因为随机森林或者提升树模型其实是基于决策树的,而且我们知道决策树模型的可解释性本来就很好。集成模型可以简单理解成决策树的集合。
除了工业界应用,在各类数据竞赛上,集成模型也扮演着极其重要的角色。对于大部分的竞赛,使用集成模型是让你通向第一名的最快的捷径。当然,也离不开特征工程的部分。
小时候我们应该都听过这样的一句话 - “三个臭皮匠顶个诸葛亮"。其实也从侧面反映了集成模型的思想,多个人一起决策要优于一个人单干。当然也有可能存在一些特别牛逼的人要远远胜于其他所有人的智慧之和,但毕竟是特例。至少多听取不同的建议会让自己少犯一些愚蠢的错误。
那如何构建集成模型,通常有两种方法,一种叫Bagging,另外一种叫Boosting,这是两种完全不一样的方法。随机森林是Bagging的一种方法,所以首先介绍Bagging。简单来说,基于Bagging 的预测就是每个模型互相独立,因此训练独立,如下图所示。
二、随机森林与方差分析
在训练模型时,我们的目的是要训练出泛化能力强的模型。为了一个模型具有较强的泛化能力,我们需要解决模型的过拟合现象。那什么样的模型容易过拟合呢?答案是不稳定的模型,也就是训练出来的模型放在训练数据上表现特别好,但放在真实的线上环境时就不行了。 就好比一个学生平时成绩非常好,但一到关键时刻就不灵了,这种现象可以笼统地理解为不稳定。所以我们的目的是希望训练出一个稳定的模型。
在统计学里,方差和标准差是可以用来表示稳定性的。稳定性越高,说明方差或者标准差越小。假如每一个随机变量有着方差 σ 2 \sigma^2 σ2, 则当我们混合了N个随机变量的时候,方差就会减少为原来的 1 / N 1/N 1/N。
做个总结,多个模型共同预测确实会降低方差,也就意味着提高模型的稳定性。但准确率是不是也会保证提升呢?这个其实不好说,但通常来说集成模型的准确率还是要高于其他简单模型的。但不管怎么样,只要能理解为什么共同决策会降低风险或者增加稳定性,足以帮助理解后续的内容了。
三、随机森林的训练
既然随机森林也属于Bagging的范畴,训练和预测过程也跟以上提到的Bagging一样。随机森林里有两个关键词,一个叫“随机”,一个叫“森林”。森林比较好理解,就是很多树的集合,也说明了模型本身的特点。 “随机”这个关键词不是特别直观,但马上会了解到为什么叫随机。
构造随机森林,但只有一份训练数据,而我们要确保多颗决策树要优于单颗决策树,因为我们的目的是要训练出效果更好、更稳定的模型。如果最后训练出来的多棵决策树比单棵决策树还要差,那就没必要使用随机森林了
那如何才能保证随机森林的效果呢,那就是多样性。这一点非常重要。就比如我们在构建团队的时候,也希望每个人有自己的特点,这样可以起到很好的互补作用,补偿取短。那接下来的问题就来了,如何构造出很多具备多样性的决策树,答案在于“随机”,包含下以下两点:
- 训练样本的随机化
- 特征选择的随机化
通过两个方面的随机操作,我们可以得出具备多样性的决策树。这也是为什么我们把它叫作“随机”森林的主要原因。第一种随机化来自于样本的采样,也就是说每一棵决策树来自于不同的训练样本。随机森林算法就是从原始训练数据集中,应用bootstrap方法有放回地随机抽取k个新的自助样本集,并由此构建k棵分类回归树。简单说,bootstrap就是一种抽样的方式,可以重复抽样同样的样本。
除了样本的随机化,我们在构造每一棵决策树的时候也会随机化特征。回顾之前决策树模型,当我们要选择当前最好的特征作为根节点的时候,我们把所有可能的特征全部尝试了一遍然后选了其中最好的。但在随机森林里,选择特征的时候首先会做采样,比如从100个特征里选择10个,然后从10个当中选择最好的特征作为当前的根节点。 所以,每一次做分裂(split)的时候先要做特征的采样,然后一一做比较,最后选择效果最好的。这两个方面的随机化可以保证带来多样化的决策树。当然除了这两个,还可以设计更多的随机化,但主要还是以这两个为主。
构建完随机森林之后,我们即可以对新的样本做预测了。 预测过程类似于投票的过程。随机森林的预测过程无非是多棵决策树共同作出决策。比如对于分类型问题,可以通过投票的方式; 对于回归问题,则可以采用平均法则。
四、随机森林的过拟合
随机森林模型本身对避免过拟合现象是有着不错的表现的,但这并不代表随机森林就不会过拟合。任何的一个机器学习模型都存着过拟合的风险。对于这个问题,目前主流的方法还是调参。接下来我们来了解一下随机森林的调参中经常涉及到的超参数。具体详细的信息请看sklearn随机森林官方文档的时候随机选出来的特征个数。下面来看一段代码。
# 导入数字识别数据集,这个数据集已经集成在了sklearn里
from sklearn.datasets import load_digits
# 导入随机森林分类器
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
# 导入数据
digits = load_digits()
X = digits.data
y = digits.target
X_train, X_test, y_train, y_test = train_test_split(X,
y, test_size=0.2, random_state=42)
# 创建随机森林,参数可以适当修改一下。
# https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html
#n_estimators:估计器个数, criterion:损失函数,max_depth:树的深度,min_samples_split:样本最小数量分到叶节点,
#max_features:寻找最佳分裂时特征数量。
clf = RandomForestClassifier(n_estimators=400, criterion='entropy',
max_depth=5, min_samples_split=3, max_features='sqrt',random_state=0)
clf.fit(X_train, y_train)
print ("训练集上的准确率为:%.2f, 测试数据上的准确率为:%.2f"
% (clf.score(X_train, y_train), clf.score(X_test, y_test)))
输出结果:训练集上的准确率为:0.98, 测试数据上的准确率为:0.95
五、随机森林的实际案例代码分析
随机森林的参数比较多,所以在实际的项目当中还是要认真去调参的。在本章的最后,我们一起来学习一下一个小的案例:预测员工的离职率。问题核心是根据员工的一些数据来预测员工是否会有离职倾向,这是一个经典的二分类问题。对于这个问题,我们使用随机森林来预测。
## 员工离职率预测小案例
# 引入相应的工具包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as matplot
%matplotlib inline
from sklearn.model_selection import train_test_split
# 读取数据到pandas dataframe
df = pd.read_csv('HR_comma_sep.csv', index_col=None)
# 检测是否有缺失数据
print (df.isnull().any(), "\n\n")
# 看看数据的样例吧
print (df.head(), "\n\n")
# 给定数据里的列名有些不太清楚,咱们改改吧!
df = df.rename(columns={'satisfaction_level': 'satisfaction',
'last_evaluation': 'evaluation',
'number_project': 'projectCount',
'average_montly_hours': 'averageMonthlyHours',
'time_spend_company': 'yearsAtCompany',
'Work_accident': 'workAccident',
'promotion_last_5years': 'promotion',
'sales' : 'department',
'left' : 'turnover'
})
# 将预测标签‘是否离职’放在第一列,这是咱们的label!
front = df['turnover']
df.drop(labels=['turnover'], axis=1, inplace = True)
df.insert(0, 'turnover', front)
#df.head()
# 计算一下离职员工的百分比和没有离职的百分比。
turnover_rate = df.turnover.value_counts() / len(df)
print ("样本数据中,离职率为:%.2f\n\n" % turnover_rate[1])
# 最后显示一下统计数据看看吧!
print (df.describe(),"\n\n")
# 将string类型转换为整数类型,不然后面处理不了。
#第一种 独热编码
cat_vars=['department','salary']
for var in cat_vars:
# TODO 每个变量转换成类别型变量, 参考函数 pd.get_dummies
cat_list=pd.get_dummies(df[var], prefix=var)
df=df.join(cat_list)
# 剔除掉原来类别型变量,只保留独热编码
df=df.drop(cat_vars, axis=1)
df.columns.values
#第二种 直接转成数字
df["department"] = df["department"].astype('category').cat.codes
df["salary"] = df["salary"].astype('category').cat.codes
# 设置特征值和标签。 X 存放特征, y存放标签
target_name = 'turnover'
X = df.drop('turnover', axis=1)
y = df[target_name]
# 将数据分为训练和测试数据集
# 注意参数 stratify = y 意味着在产生训练和测试数据中, 离职的员工的百分比等于原来总的数据中的离职的员工的百分比
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.15, random_state=123, stratify=y)
# 准备工作就绪,接下来就训练模型时间到了!
from sklearn.metrics import classification_report
from sklearn.ensemble import RandomForestClassifier
from sklearn import tree
from sklearn.tree import DecisionTreeClassifier
# 决训练一下决策树
dtree = tree.DecisionTreeClassifier(
criterion='entropy',
#max_depth=3, # 定义树的深度, 可以用来防止过拟合
min_weight_fraction_leaf=0.01 # 定义叶子节点最少需要包含多少个样本(使用百分比表达), 防止过拟合
)
dtree = dtree.fit(X_train,y_train)
print ("\n\n ---决策树---")
print(classification_report(y_test, dtree.predict(X_test)))
# 随机森林
rf = RandomForestClassifier(
criterion='entropy',
n_estimators=1000,
max_depth=None, # 定义树的深度, 可以用来防止过拟合
min_samples_split=10, # 定义至少多少个样本的情况下才继续分叉
#min_weight_fraction_leaf=0.02 # 定义叶子节点最少需要包含多少个样本(使用百分比表达), 防止过拟合
)
rf.fit(X_train, y_train)
print ("\n\n ---随机森林---")
print(classification_report(y_test, rf.predict(X_test)))
输出结果:
—决策树—precision recall f1-score support 0 0.97 0.98 0.98 1500 1 0.93 0.89 0.91 376 accuracy 0.96 1876 macro avg 0.95 0.94 0.94 1876 weighted avg 0.96 0.96 0.96 1876
—随机森林—
precision recall f1-score support 0 0.98 1.00 0.99 1500 1 0.99 0.90 0.94 376 accuracy 0.98 1876 macro avg 0.98 0.95 0.96 1876 weighted avg 0.98 0.98 0.98 1876