【数据挖掘学习笔记】7.决策树与链接分析

最新推荐文章于 2023-02-23 21:56:31 发布

sigmeta

最新推荐文章于 2023-02-23 21:56:31 发布

阅读量1.1k

点赞数

分类专栏：数据挖掘学习笔记

本文链接：https://blog.csdn.net/sigmeta/article/details/80782786

版权

本文详细介绍了决策树的建立过程，包括决策树生长、修剪、规则抽取和改进方法，探讨了基尼值和熵作为纯度计算方式，并讨论了ID3和C4.5算法。同时，文章也涉及图论基础，讲解了图的基本概念和链接分析，如社会关系网络、PageRank算法及其计算实例。

摘要由CSDN通过智能技术生成

一、决策树

决策树

– 提供了一种展示类似在什么条件下会得到什么值这类规则的方法
– 每个分支要么是一个新的决策节点，要么是树的叶子。在沿着决策树从上到下遍历的过程中，在每个节点都会遇到一个问题，对每个节点上问题的不同回答导致不同的分支，最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程，利用几个变量（每个变量对应一个问题）来判断所属的类别（最后每个叶子会对应一个类别）。

– 功能强大且相当被受欢迎的分类和预测工具。
– 每条路径代表识别一个规则。
– 模型准确和模型明确度之间的选择。
– 把由不同成份组成的总体分成较小且较具同质性的群体。

决策树优点
– 易于理解和解释人们很容易理解决策树的意义。
– 只需很少的数据准备其他技术往往需要数据归一化。
– 既可以处理数值型数据也可以处理类别型数据。其他技术往往只能处理一种数据类型。例如关联规则只能处理类别型的而神经网络只能处理数值型的数据。
– 使用白盒模型. 输出结果容易通过模型的结构来解释。而神经网络是黑箱模型，很难解释输出的结果。
– 可以通过测试集来验证模型的性能。可以考虑模型的稳定性。
– 鲁棒. 对噪声处理鲁棒。
– 可以很好的处理大规模数据。

决策树缺点
– 训练一棵最优的决策树是一个完全NP问题。实际应用时决策树的训练采用启发式搜索算法如贪心算法以达到局部最优。
– 决策树创建的过度复杂会导致无法很好的预测训练集之外的数据。这称作过拟合.剪枝机制可以避免这种问题。
– 有些问题决策树没办法很好的解决,例如异或问题。解决这种问题的时候，决策树会变得过大。
– 主观性较强，可能导致决策失误