决策树
决策树(Decisiontree)一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。简单来说:通过对样本数据的训练,得到N多的规则,然后跟具这N条规则,判定新样本的结果。
优点:规则可理解、计算量不大、可处理连续和种类的字段、可得到字段重要程度。
缺点:
1) 对连续性的字段比较难预测;
2) 对有时间顺序的数据,需要很多预处理的工作;
3) 当类别太多时,错误可能就会增加的比较快;
4) 一般的算法分类的时候,只是根据一个字段来分类。
C5.0算法
使用c5.0算法可以生成决策树或者规则集。
C5.0模型根据能够带来最大信息增益的字段拆分样本。第一次拆分确定的样本子集随后再次拆分,通常是根据另一个字段进行拆分,这一过程重复进行直到样本子集不能再被拆分为止。最后,重新检验最低层次的拆分,那些对模型值没有显著贡献的样本子集被剔除或者修剪。
目标字段必须为分类字段。
执行效率和内存使用改进、适用于大数据集。
优点:
(1)面对数据遗漏和输入字段很多的问题时非常稳健;
(2)通常不需要很长的训练次数进行估计;
(3)易于理解,模型推出的规则有非常直观的解释;
(4)允许进行多次多于两个子组的分割。
剪枝:完整的决策树对训练样本特征的描述可能“过于精确”(受噪声数据的影响),缺少了一般代表性而无法较好的用对新数据做分类预测,出现”过度拟合“。
剪枝方式:
A、预修剪(prepruning):停止生长策略
B、后修剪(postpruning):在允许决策树得到最充分生长的基础上,再根据一定的规则,自下而上逐层进行剪枝。
Logistic 回归
主要用于预测,如:收集了若干人的健康记录,包括年龄、性别、抽烟史、日常饮食及家庭病史等变量的数据,因变量为得了癌症(Y=1),没有得癌症(Y=0)。通过训练得出得癌症和没得癌症的概率拟合公式。当有一批新的数据时,可以根据拟合公式得出是否得癌症的概率。
逻辑回归和决策树的主要差别:
1. 对于拥有缺失值的数据,决策树可以应对,而逻辑回归需要挖掘人员预先对缺失数据进行处理。
2. 逻辑回归对数据整体结构的分析优于决策树,而决策树对局部结构的分析优于逻辑回归。
3. 逻辑回归擅长分析线性关系,而决策树对线性关系的把握较差。线性关系在实践中有很多优点:简洁,易理解,可以在一定程度上防止对数据的过度拟合。
4. 逻辑回归对极值比较敏感,容易受极端值的影响,而决策树在这方面表现较好。
5. 应用上的区别:决策树的结果和逻辑回归相比略显粗糙。逻辑回归原则上可以提供数据中每个观察点的概率,而决策树只能把挖掘对象分为有限的概率组群。比如决策树确定17个节点,全部人口就只能有17个概率,在应用上受到一定限制。就操作来说,决策树比较容易上手,需要的数据预处理较少,而逻辑回归则要求一定的训练和技巧。
6. 执行速度上:当数据量很大的时候,逻辑回归的执行速度非常慢,而决策树的运行速度上明显快于逻辑回归。
逻辑回归和决策树的结合使用
一种是从决策树分析中找出数据局部结构,作为在逻辑回归中构建依变量(interaction)的依据。
另一种是在需要对预测因子进行离散化处理时,利用决策树分析决定最佳切分点。
还有一种是把决策树分类的最终结果作为预测变量,和其他协变量一起代入回归模型,又称为“嫁接式模型”。从理论上讲,嫁接模型综合了决策树和逻辑回归的优点。最终节点包含了数据中重要的局部结构,而协变量可以拾补被决策树遗漏的数据整体结构。