决策树&逻辑回归

决策树

决策树(Decisiontree)一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。简单来说:通过对样本数据的训练,得到N多的规则,然后跟具这N条规则,判定新样本的结果。

优点:规则可理解、计算量不大、可处理连续和种类的字段、可得到字段重要程度。

缺点:

1)   对连续性的字段比较难预测;
2)   对有时间顺序的数据,需要很多预处理的工作;
3)   当类别太多时,错误可能就会增加的比较快;    

4)   一般的算法分类的时候,只是根据一个字段来分类。 

C5.0算法

使用c5.0算法可以生成决策树或者规则集。

C5.0模型根据能够带来最大信息增益的字段拆分样本。第一次拆分确定的样本子集随后再次拆分,通常是根据另一个字段进行拆分,这一过程重复进行直到样本子集不能再被拆分为止。最后,重新检验最低层次的拆分,那些对模型值没有显著贡献的样本子集被剔除或者修剪。

目标字段必须为分类字段。

执行效率和内存使用改进、适用于大数据集。

优点:
(1)面对数据遗漏和输入字段很多的问题时非常稳健;

(2)通常不需要很长的训练次数进行估计;

(3)易于理解,模型推出的规则有非常直观的解释;

(4)允许进行多次多于两个子组的分割。 

剪枝:完整的决策树对训练样本特征的描述可能“过于精确”(受噪声数据的影响),缺少了一般代表性而无法较好的用对新数据做分类预测,出现”过度拟合“。

剪枝方式:

A、预修剪(prepruning):停止生长策略

B、后修剪(postpruning):在允许决策树得到最充分生长的基础上,再根据一定的规则,自下而上逐层进行剪枝。

 Logistic 回归

    主要用于预测,如:收集了若干人的健康记录,包括年龄、性别、抽烟史、日常饮食及家庭病史等变量的数据,因变量为得了癌症(Y=1),没有得癌症(Y=0)。通过训练得出得癌症和没得癌症的概率拟合公式。当有一批新的数据时,可以根据拟合公式得出是否得癌症的概率。

逻辑回归和决策树的主要差别:

1. 对于拥有缺失值的数据,决策树可以应对,而逻辑回归需要挖掘人员预先对缺失数据进行处理。

2. 逻辑回归对数据整体结构的分析优于决策树,而决策树对局部结构的分析优于逻辑回归。

3. 逻辑回归擅长分析线性关系,而决策树对线性关系的把握较差。线性关系在实践中有很多优点:简洁,易理解,可以在一定程度上防止对数据的过度拟合。

4. 逻辑回归对极值比较敏感,容易受极端值的影响,而决策树在这方面表现较好。

5. 应用上的区别:决策树的结果和逻辑回归相比略显粗糙。逻辑回归原则上可以提供数据中每个观察点的概率,而决策树只能把挖掘对象分为有限的概率组群。比如决策树确定17个节点,全部人口就只能有17个概率,在应用上受到一定限制。就操作来说,决策树比较容易上手,需要的数据预处理较少,而逻辑回归则要求一定的训练和技巧。

6. 执行速度上:当数据量很大的时候,逻辑回归的执行速度非常慢,而决策树的运行速度上明显快于逻辑回归。 

逻辑回归和决策树的结合使用

一种是从决策树分析中找出数据局部结构,作为在逻辑回归中构建依变量(interaction)的依据。

另一种是在需要对预测因子进行离散化处理时,利用决策树分析决定最佳切分点。

还有一种是把决策树分类的最终结果作为预测变量,和其他协变量一起代入回归模型,又称为“嫁接式模型”。从理论上讲,嫁接模型综合了决策树和逻辑回归的优点。最终节点包含了数据中重要的局部结构,而协变量可以拾补被决策树遗漏的数据整体结构。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值