机器学习——决策树与随机森林
1.决策树的主要元素:根节点、内部节点、叶节点。其中根节点聚集了所有的样本,内部节点表示根据某个特征进行分类,叶节点根据节点内样本数最多的那一类作为输出。
2.决策树的主要处理方式:根据信息增益、信息增益率或者基尼系数这三个指标来选取局部最优的分类特征。
3.决策树由于是递归过程,所以会出现过拟合现象。需要通过剪枝来使得模型的泛化能力增强。
4.决策树主要形式有分类决策树、回归决策树,针对因变量是分类型变量还是连续型变量。
决策树的主要三个算法,主要的区别在于选择特征的标准。
1. ID3算法 (信息增益)
2. C4,5算法 (信息增益率)
3. CART算法 (基尼系数)
信息增益的理论知识:
1.信息熵
2.条件熵
3.互信息
ID3就是通过对所有特征进行信息增益(互信息)的比较,选择使得信息增益最大的变量作为分类特征。
以上是理论指标的定义,在实际样本中,有经验熵,经验条件熵的定义。
经验熵:设样本为D&