分类模型总结

分类模型总结

1.逻辑斯蒂回归

2.决策树

决策树是一种简单高效并且具有强解释性的模型,广泛应用于数据分析领域。本质是一颗自上而下的由多个判断节点组成的树

  • 决策树可以看作是一个if-then规则的集合
  • 由决策树根节点到叶节点的每一条路径,构建一条规则。

2.1决策树的目标

  • 决策树学习的本质,是从训练数据中归纳出一组if-then分类规则
  • 与训练集不相矛盾的决策树,可能有很多个,也可能一个都没有,所以偶们需要选择一个与训练数据集矛盾较小的决策树
  • 另一个角度,我们可以吧决策树看成是一个条件概率模型,我们的目标是将实例分配到条件概率更大的那一类中去
  • 从所有可能的情况中选择最优决策树,是一个NP完全问题,所以我们通常采用启发式算法求解决策树,得到一个次最优解
  • 采用的算法通常是递归的进行以下过程:**选择最优特征,**并根据该特征对训练数据进行分割,使得各个子数据集都有一个最好的分类

2.2关于熵

  • 熵是用来衡量随机变量的不确定性的
  • 变量的不确定性越大,熵也就越大

P ( X = x i ) = P i , i = 1 , 2 , 3... , n P(X=xi)=Pi,i=1,2,3...,n P(X=xi)=Pi,i=1,2,3...,n

随机变量X的熵定义为:

H ( X ) = − Σ P i H(X)=-ΣPi H(X)=ΣPi l o g p i logpi logpi

通常,上式中对数以2为底或者以e为底(自然对数)

2.3关于信息增益

  • 特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的条件熵H(D|A)之差,也即

g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=H(D)H(DA)

  • 决策树学习应用信息增益准则选择特征

2.4决策树的生成算法

  • ID3

      决策树(ID3)的训练过程就是找到信息增益最大的特征,然后按照该特征进行分类,然后再找到各类型子集中信息增益最大的特征,然后按照该特征进行分类,最终得到符合要求的模型
    
  • C4.5

     C4.5算法载ID3基础上做了改进,用信息增益比来选择特征
    
  • 分类与回归树(CART)

     由特征选择、树的生成与剪枝三部分组成,既可以用于分类也可以用于回归
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值