决策树cart


引:决策树是一种基本的分类和回归算法,思想非常简单,给出一个总体衡量复杂度的公式,然后在使用贪心算法,用局部最优来近似总体最优,并设置终止条件,最后通过剪枝避免过拟合。优点是模型具有可读性,分类速度快(二叉树)。

基本概念

熵(entropy)和基尼指数(Gini index)都是表示随机变量不确定性的度量(针对离散情况,因此是用于分类问题的度量)

熵(entropy)

设X是一个取有限个值的离散随机变量,其概率分布为

p ( X = x i ) = p i p(X=x_i)=p_i p(X=xi)=pi,i=1,2, … ,n

随机变量X的熵定义为:
H(X)= − ∑ i = 1 n p i l o g ( p i ) -\sum_{i=1}^{n}p_i log (p_i) i=1npilog(pi)(以e或2为底)

熵越大,随机变量的不确定性越大

p i p_i pi趋近于0和趋近于1时, p i l o g ( p i ) p_i log (p_i) pilog(pi)趋近于0,说明这一项不能给变量增加不确定性,从定义可证
0 ≤ \leq H(x) ≤ \leq logn (取 p i = 1 n p_i=\frac{1}{n} pi=n1, − ∑ i = 1 n 1 / n l o g ( 1 / n ) = l o g n -\sum_{i=1}^{n}1/n log (1/n)=logn i=1n1/nlog(1/n)=logn)


设有随机变量(X,Y),其联合概率分布为

p ( X = x i , Y = y i ) = p i j p(X=x_i,Y=y_i)=p_{ij}

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值