分类模型总结
1.逻辑斯蒂回归
2.决策树
决策树是一种简单高效并且具有强解释性的模型,广泛应用于数据分析领域。本质是一颗自上而下的由多个判断节点组成的树
- 决策树可以看作是一个if-then规则的集合
- 由决策树根节点到叶节点的每一条路径,构建一条规则。
2.1决策树的目标
- 决策树学习的本质,是从训练数据中归纳出一组if-then分类规则
- 与训练集不相矛盾的决策树,可能有很多个,也可能一个都没有,所以偶们需要选择一个与训练数据集矛盾较小的决策树
- 另一个角度,我们可以吧决策树看成是一个条件概率模型,我们的目标是将实例分配到条件概率更大的那一类中去
- 从所有可能的情况中选择最优决策树,是一个NP完全问题,所以我们通常采用启发式算法求解决策树,得到一个次最优解
- 采用的算法通常是递归的进行以下过程:**选择最优特征,**并根据该特征对训练数据进行分割,使得各个子数据集都有一个最好的分类
2.2关于熵
- 熵是用来衡量随机变量的不确定性的
- 变量的不确定性越大,熵也就越大
P ( X = x i ) = P i , i = 1 , 2 , 3... , n P(X=xi)=Pi,i=1,2,3...,n P(X=xi)=Pi,i=1,2,3...,n
随机变量X的熵定义为:
H ( X ) = − Σ P i H(X)=-ΣPi H(X)=−ΣPi l o g p i logpi logpi
通常,上式中对数以2为底或者以e为底(自然对数)
2.3关于信息增益
- 特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的条件熵H(D|A)之差,也即
g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=H(D)−H(D∣A)
- 决策树学习应用信息增益准则选择特征
2.4决策树的生成算法
-
ID3
决策树(ID3)的训练过程就是找到信息增益最大的特征,然后按照该特征进行分类,然后再找到各类型子集中信息增益最大的特征,然后按照该特征进行分类,最终得到符合要求的模型
-
C4.5
C4.5算法载ID3基础上做了改进,用信息增益比来选择特征
-
分类与回归树(CART)
由特征选择、树的生成与剪枝三部分组成,既可以用于分类也可以用于回归