数据挖掘系列笔记（4）——决策树和随机森林

最新推荐文章于 2021-11-11 22:32:35 发布

FourFatCats

最新推荐文章于 2021-11-11 22:32:35 发布

阅读量1.1k

点赞数

分类专栏：数据挖掘文章标签：数据挖掘

本文链接：https://blog.csdn.net/u014339020/article/details/88211123

版权

数据挖掘专栏收录该内容

3 篇文章 0 订阅

订阅专栏

决策树和随机森林的概念理解：

决策树：是构建一个二叉树模型，利用对象的某些特征值，下降分类的范围，直到得到确定的一个类别。

理解方法：可以参考之前的ONER算法，那边是用一个特征值，然后根据特征值的区间或者离散点的分布，然后直接IF、ELSE得到类别。决策树的训练和它类似，是用部分特征值和分类结果进行训练，得到一个树状的判断序列，利用序列得到分类结果。

实验依然使用sklearn的库实现。scikit-learn库实现了分类回归树（Classification and Regression Trees，CART）算法并将
其作为生成决策树的默认算法，它支持连续型特征和类别型特征。

跟大多数分类算法一样，决策树也分为两大步骤。

首先是训练阶段，用训练数据构造一棵树。上一章的近邻算法没有训练阶段，但是决策树需要。从这个意义上说，近邻算法是一种惰性算法，在用它进行分类时，它才开始干活。相反，决策树跟大多数机器学习方法类似，是一种积极学习的算法，在训练阶段完成模型的创建。
其次是预测阶段，用训练好的决策树预测新数据的类别。以上图为例，["is raining","very windy"]的预测结果为“Bad”（坏天气）。

算法中的关键参数：

需要明确的是，决策树的退出准则是重要特性，因为构建树的时候，最后几步决策很大程度影响整体模型，因此整个算法特别容易出现过拟合的情况。合适的退出准则能够防止出现过拟合导致决策精度过高。和退出准则类似，算法也可先构建完整的树，然后进行修剪，去掉并没有提供太多信息的节点，这个过程叫做剪枝。

SKLearn提供的算法可以通过以下参数控制退出：

min_samples_split：指定创建一个新节点至少需要的个体数量。控制节点创建
min_samples_leaf：指定为了保留节点，每个节点至少应该包含的个体数量。决定是否保留节点

决策树的和创建相关的参数标准有多个参数，常用的有：

基尼不纯度（Gini impurity）：用于衡量决策节点错误预测新个体类别的比例。
信息增益（Information gain）：用信息论中的熵来表示决策节点提供多少新信息。

算法的具体原理这里暂不讨论。

使用方法：

from sklearn.tree import DecisionTreeClassifier # 算法模块
from sklearn.model_selection import cross_val_score    # 测试模块
clf = DecisionTreeClassifier(random_state=14)

X_previouswins = dataset[["HomeLastWin", "VisitorLastWin"]].values    #选特征值
scores = cross_val_score(clf, X_previouswins, y_true, scoring='accuracy')    #直接验证
print("Using just the last result from the home and visitor teams")
print("Accuracy: {0:.1f}%".format(np.mean(scores) * 100))

一棵决策树可以学到很复杂的规则。然而，很可能会导致过拟合问题——学到的规则只适用于训练集。解决方法之一就是调整决策树算法，限制它所学到的规则的数量。例如，把决策树的深度限制在三层，只让它学习从全局角度拆分数据集的最佳规则，不让它学习适用面很窄的特定规则，这些规则会将数据集进一步拆分为更加细致的群组。使用这种折中方案得到的决策树泛化能力强，但整体表现稍弱。

因此诞生了随机森林：创建多棵决策树，用它们分别进行预测，再根据少数服从多数的原则从多个预测结果中选择最终预测结果。每课决策树都是从数据集随机取出一部分数据，以防止不同的决策树之间的相似性。

SKLearn库里面的决策森林算法：RandomForestClassifier，和决策树不同的地方，随机森林引入了更多的参数：

n_estimators：用来指定创建决策树的数量。该值越高，所花时间越长，正确率（可能）越高。
oob_score：如果设置为真，测试时将不使用训练模型时用过的数据。
n_jobs：采用并行计算方法训练决策树时所用到的内核数量。

from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(random_state=14)
scores = cross_val_score(clf, X_all, y_true, scoring='accuracy')
print("Using whether the home team is ranked higher")
print("Accuracy: {0:.1f}%".format(np.mean(scores) * 100))

FourFatCats

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘系列笔记（4）——决策树和随机森林

决策树和随机森林的概念理解：决策树：是构建一个二叉树模型，利用对象的某些特征值，下降分类的范围，直到得到确定的一个类别。理解方法：可以参考之前的ONER算法，那边是用一个特征值，然后根据特征值的区间或者离散点的分布，然后直接IF、ELSE得到类别。决策树的训练和它类似，是用部分特征值和分类结果进行训练，得到一个树状的判断序列，利用序列得到分类结果。实验依然使用sklearn的库实现...
复制链接

扫一扫