1. 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)
信息熵:信息熵是度量样本集合纯度常用的一种指标。
联合熵:联合熵就是度量一个联合分布的随机系统的不确定度。
条件熵:在得知某一确定信息的基础上获取另外一个信息时所获得的信息量。
信息增益:信息增益代表使用属性a带来的纯度提升,信息增益越大,带来的纯度提升越大。计算公式就是父节点的信息熵减去所有子节点的信息熵。
基尼不纯度:从一个数据集中随机选取子项,度量其被错误的划分到其他组里的概率。
2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景决策树的基本步骤:特征选择,决策树生成,决策树剪枝。
决策树生成的过程就是将数据集不断划分成为纯度更高,不确定更小的子集的过程。
ID3算法:ID3的算法计算的是信息增益,缺点是喜欢选择选项多的特征
C4.5算法:在ID3的基础熵增加信息增益率,采用了悲观剪枝,采用了离散化处理连续属性,处理缺失值
CART:采用基尼系数划分数据,同时决定改特征的最优二值切分点,可针对离散和连续型,可以做分类和回归。
3. 回归树原理
建立回归树大致步骤: 将预测变量空间 ( X 1 , X 2 , . . . , X p ) (X_1,X_2,...,X_p) (X