几句话之Cart树、方差不纯度、基尼系数

准备工作

如果我们要把样本画成一棵树(这棵树可以用来查找最近邻或者是分类),那我们最想知道的就是:拿哪个特征去拆分样本,并且要具体到拿哪个特征的哪个值去拆分样本?
我们最希望的结果是:通过某种手段(数学公式)来选择特征(以及该特征的某个具体值),然后拿着这个千辛万苦得到的特征(值),把一堆样本"一分为二"。以此类推,最后,把样本劈成了一棵树。
以前博客里提到的信息增益,信息增益率,都是为了选出特征(用来划分样本)。
下面即将要说的基尼系数,也是这个作用。

基尼系数,能够帮助Cart树选择特征。用选出来的特征,可以更好的将样本画成一颗树,最终分类。
事实上,要了解的顺序是 :不纯度==》基尼系数==》Cart树

方差不纯度

不纯度值越小,说明样本越"纯",越能说明大家是"一类人"。
当样本点均来自同一类别时不纯度为0,当两个样本点属于不同类别时不纯度如下:
i(N)=p(w1)p(w2)
推广到多分类问题的不纯度:
多分类的不纯度

基尼系数

基尼系数本质上是:样本被选中的概率 × 样本被分错的概率,当然它的计算公式不完全长这个样子,只是大体思路是这个样子。
所以基尼系数越小越好。
基尼系数:假设有K个类别,样本点属于第k类的概率为Pk,则基尼系数如下:
基尼系数
其中Dk表示的是第k类样本子集的个数。
NOTE:如果是二分类的情况,第一个类别的概率是P1=p,P2=1-p
Gini( p )=2P1P2=2p(1-p)

Cart分类树

例子
计算Gini系数:
Gini(贷款,青年)
Gini(贷款,中年)=0.48
Gini(贷款,老年)=0.44
Gini(贷款,有工作)=0.32
Gini(贷款,有房子)=0.27
其中0.27最小,所以选择特征为房子,最优切分点为有房子
以此类推,即可通过Gini系数选择特征以及切分点,将样本画为一棵树,最终分类成功。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
方差和相关系数是统计学中常用的两个概念,它们之间存在一定的关系。 方差是一组数据离散程度的度量,其计算方法是将每个数据与平均值的差的平方求和后再除以数据的个数。方差越大,说明数据的离散程度越大。 相关系数则是用来衡量两个变量之间的线性关系程度的统计量,其数值在-1到1之间取值。相关系数为1说明两个变量完全正相关,为-1说明两个变量完全负相关,为0说明两个变量不存在线性关系。 在实际应用过程中,我们可以通过计算两个变量之间的相关系数,来衡量它们之间的线性关系程度,也可以通过计算两个变量的方差,来衡量它们的离散程度。此外,我们还可以通过计算两个变量的协方差来衡量它们之间的统计相关性。 因此,方差和相关系数都能够用于衡量变量之间的关系,但方差更加注重数据的离散程度,而相关系数更加注重变量之间的线性关系程度。 <<引用:方差、标准差、相关系数。相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。由于研究对象的不同,相关系数有如下几种定义方式。 [^1]。引用:方差、标准差、相关系数。复相关系数:又叫多重相关系数。复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的季节性需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。 。>>
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值