数据挖掘十大算法

1.支持向量机

寻找超平面

2.决策树

2.1 ID3

:度量事物的不确定性,越不确定的事物,它的熵越大。随机变量X的熵的表达式如下:

H\left ( X \right )= -\sum_{i=1}^{n}p_{i}logp_{i}

其中n代表X的n种不同的离散取值,p_{i}代表了X取第i个值的概率。

条件熵

H\left ( X|Y \right )=-\sum_{i=1}^{n}p\left ( x_i,y_i \right )logp\left ( x_i,y_i \right )=\sum_{j=1}^{n}p\left ( y_i \right )H\left ( X|y_j \right )

信息增益

I\left ( X,Y \right )=H\left ( X \right )-H\left ( X|Y \right )

ID3的不足:

a. ID3没有考虑连续特征

b. ID3选择信息增益大的特征优先建立决策树节点。很快人们发现,相同条件下,取值比较多的比取值少的特征信息增益大。

c. ID3算法对于缺失值的情况没有考虑

d. 没有考虑过拟合问题

2.2 C4.5

针对ID3的四个不足做了改进,首先对于连续特征,比如m个样本的连续特征A有m个,从小到大排列为a1,a2,...,am,则C4.5取相邻两样本值的平均数,一共取得m-1个划分点,其中第i个划分点Ti表示为T_i=\frac{a_i+a_{i+1}}{2}。对于这m-1个点,分别计算以改点作为二分类点时的信息增益,选择信息增益最大的点作为该连续特征的二元离散分类点。

对于第二个问题,我们引入了一个信息增益比的变量I_R\left ( X,Y \right ),它是信息增益和特征熵的比值。表达式如下:I_R\left ( X,Y \right )=\frac{I\left ( X,Y \right )}{H_Y\left ( X \right )}

其中X为样本特征输出的集合,Y为样本特征,对于特征熵H_Y\left ( X \right )表达式如下:

H_Y\left ( X \right )=-\sum_{i=1}^{n}\frac{\left | D_i \right |}{\left | D \right |}log_2\frac{\left | D_i \right |}{\left | D \right |}

不足:

a. 容易过拟合

b. 多叉树,效率不高

c. 只能用于分类

d. 熵运算耗时

 

2.3 CART

基尼系数:代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。(与信息增益相反)。在分类问题中,假设有K个类别,第k个类别概率为pk,则基尼系数的表达式为:

Gini\left ( p \right )=\sum_{k=1}^{K}p_k\left ( 1-p_k \right )=1-\sum_{k=1}^{K}p_{k}^{2}

如果是二分类问题,如果属于第一个样本输出的概率是p,则基尼系数的表达式为:

Gini\left ( p \right )=2p\left ( 1-p \right )

对于给定样本D,假设有K个类别,第k个类别的数量为Ck,则样本的基尼系数表达式为:

Gini\left ( D \right )=1-\sum_{k=1}^{K}\left ( \frac{\left | C_k \right |}{\left | D \right |} \right )^{2}

特别的,对于样本D,如果根据特征A的某个值a,把D分成D1和D2两部分,则在特征A的条件下,D的基尼系数表达式为:

Gini\left ( D,A \right )=\frac{\left | D_1 \right |}{\left | D \right |}Gini\left ( D_1 \right )+\frac{\left | D_2 \right |}{\left | D \right |}Gini\left ( D_2 \right )

剪枝

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值