机器学习算法—决策树(Decision Tree)

1、什么是决策树(Decision Tree)?
决策树是一个类似于流程图的树结构,根据一些 feature 进行分类,每个节点提一个问题,通过判断,将数据分为两类,再继续提问。这些问题是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上,是一种监督式学习。

这里写图片描述

2、构造决策树的方法
① 信息熵
一条信息的信息量大小和它的不确定性有直接的关系,信息量的度量就等于不确定性的大小,我们用“信息熵”来衡量。变量的不确定性越大,熵就越大。
若待分类的事物可能划分在N类中,分别是x1,x2,……,xn,每一种取到的概率分别是P1,P2,……,Pn,那么X的熵就定义为:

这里写图片描述 从定义中可知:0≤H(X)≤log(n)。

当随机变量只取两个值时,即X的分布为 P(X=1)=p,X(X=0)=1−p,0≤p≤1则熵为:H(X)=−plog2(p)−(1−p)log2(1−p).

② 信息增益(Information Gain)
Gain(age) = H(D)-H_age(D),表示以age属性作为根节点进行分类,信息增益的大小代表age属性的信息获取量的大小,分别计算每个属性(age,gender,occupation)的信息增益,选择信息增益最大的一个属性作为第一个根节点。利用同样的方法不断进行下面节点的选择,即不断扩大决策树。
决策树停止条件:
(1)给定节点的所有样本属于同一类;
(2)没有剩余属性可以用来进一步划分样本;

3、python实现

明天再写,累了!

4、决策树算法的优缺点

优点:直观,便于理解,对小规模数据有效。
缺点:处理连续变量不好,需要进行离散化,阈值的选择会影响效果;当类别较多时,错误增加的会比较快,易过拟合;对大规模数据不太适用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值