决策树&逻辑回归

最新推荐文章于 2024-07-26 11:11:41 发布

ogghanxi

最新推荐文章于 2024-07-26 11:11:41 发布

阅读量6.5k

点赞数 1

分类专栏：数据分析（理论基础）学习笔记文章标签：大数据预测分类

本文链接：https://blog.csdn.net/ogghanxi/article/details/38496287

版权

学习笔记同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

数据分析（理论基础）

1 篇文章 0 订阅

订阅专栏

决策树

决策树(Decisiontree)一般都是自上而下的来生成的。每个决策或事件（即自然状态）都可能引出两个或多个事件，导致不同的结果，把这种决策分支画成图形很像一棵树的枝干，故称决策树。简单来说：通过对样本数据的训练，得到N多的规则，然后跟具这N条规则，判定新样本的结果。

优点：规则可理解、计算量不大、可处理连续和种类的字段、可得到字段重要程度。

缺点：

1)   对连续性的字段比较难预测；
2)   对有时间顺序的数据，需要很多预处理的工作；
3)   当类别太多时，错误可能就会增加的比较快；

4) 一般的算法分类的时候，只是根据一个字段来分类。

C5.0算法

使用c5.0算法可以生成决策树或者规则集。

C5.0模型根据能够带来最大信息增益的字段拆分样本。第一次拆分确定的样本子集随后再次拆分，通常是根据另一个字段进行拆分，这一过程重复进行直到样本子集不能再被拆分为止。最后，重新检验最低层次的拆分，那些对模型值没有显著贡献的样本子集被剔除或者修剪。

目标字段必须为分类字段。

执行效率和内存使用改进、适用于大数据集。

优点：
（1）面对数据遗漏和输入字段很多的问题时非常稳健；

（2）通常不需要很长的训练次数进行估计；

（3）易于理解，模型推出的规则有非常直观的解释；

（4）允许进行多次多于两个子组的分割。

剪枝：完整的决策树对训练样本特征的描述可能“过于精确”（受噪声数据的影响），缺少了一般代表性而无法较好的用对新数据做分类预测，出现”过度拟合“。

剪枝方式：

A、预修剪（prepruning）：停止生长策略

B、后修剪（postpruning）：在允许决策树得到最充分生长的基础上，再根据一定的规则，自下而上逐层进行剪枝。

Logistic 回归

主要用于预测，如：收集了若干人的健康记录，包括年龄、性别、抽烟史、日常饮食及家庭病史等变量的数据，因变量为得了癌症（Y=1），没有得癌症（Y=0）。通过训练得出得癌症和没得癌症的概率拟合公式。当有一批新的数据时，可以根据拟合公式得出是否得癌症的概率。

逻辑回归和决策树的主要差别：

1．对于拥有缺失值的数据，决策树可以应对，而逻辑回归需要挖掘人员预先对缺失数据进行处理。

2．逻辑回归对数据整体结构的分析优于决策树，而决策树对局部结构的分析优于逻辑回归。

3． 逻辑回归擅长分析线性关系，而决策树对线性关系的把握较差。线性关系在实践中有很多优点：简洁，易理解，可以在一定程度上防止对数据的过度拟合。

4． 逻辑回归对极值比较敏感，容易受极端值的影响，而决策树在这方面表现较好。

5．应用上的区别：决策树的结果和逻辑回归相比略显粗糙。逻辑回归原则上可以提供数据中每个观察点的概率，而决策树只能把挖掘对象分为有限的概率组群。比如决策树确定17个节点，全部人口就只能有17个概率，在应用上受到一定限制。就操作来说，决策树比较容易上手，需要的数据预处理较少，而逻辑回归则要求一定的训练和技巧。

6．执行速度上：当数据量很大的时候，逻辑回归的执行速度非常慢，而决策树的运行速度上明显快于逻辑回归。

逻辑回归和决策树的结合使用

一种是从决策树分析中找出数据局部结构，作为在逻辑回归中构建依变量（interaction)的依据。

另一种是在需要对预测因子进行离散化处理时，利用决策树分析决定最佳切分点。

还有一种是把决策树分类的最终结果作为预测变量，和其他协变量一起代入回归模型，又称为“嫁接式模型”。从理论上讲，嫁接模型综合了决策树和逻辑回归的优点。最终节点包含了数据中重要的局部结构，而协变量可以拾补被决策树遗漏的数据整体结构。