(三)决策树算法梳理

1、信息论基础(熵、联合熵、条件熵、信息增益、阻尼不纯度)

熵:自信息的数学期望, H ( X ) = E ( l o g 1 P ( a i ) ) = − ∑ i = 1 q P ( a i ) l o g P ( a i ) H(X) = E(log\frac{1}{P(a_i)})=-\sum_{i=1}^{q}P(a_i)logP(a_i) H(X)=E(logP(ai)1)=i=1qP(ai)logP(ai)

联合熵: H ( X , Y ) = − ∑ x ∑ y P ( x , y ) l o g 2 [ P ( x , y ) ] H(X,Y) = -\sum_x\sum_yP(x,y)log_2[P(x,y)] H(X,Y)=xyP(x,y)log2[P(x,y)]

条件熵: H ( Y ∣ X ) = ∑ x ∈ X p ( x ) H ( Y ∣ X = x ) H(Y|X) = \sum_{x\in X}p(x)H(Y|X=x) H(YX)=xXp(x)H(YX=x)

信息增益:G(D,A) = H(D) - H(D|A),D:数据集,A:特征

阻尼不纯度:针对数据集,阻尼值越小,则数据集纯度越高。

2、决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景

ID3:----分类
1、根结点,计算所有可能特征的信息增益,选择信息增益最大的特征作为结点的特征;
2、据特征的不同取值建立子结点
3、对子结点递归的调用以上方法,构建决策树
4、直到所有特征的信息增益均很小或没有特征可选择为止,即可得到一个决策树

C4.5: —分类
相较于ID3,变成用信息增益比来选择特征了。

CART:分类树+回归树
需给定输入随机变量X条件下输出随机变量Y的条件概率分布
1、假设决策树是二叉树,内部结点特征取值为“是”或“否”(左边是取“是”的分支,右边是取“否”的分支)
2、基于训练数据集生成决策树(要尽可能大)
3、用验证数据集对已经生成的树进行剪枝(标准:损失函数最小)并选择最优子树

3、回归树原理
准则:平方误差最小化
首先对训练集进行划分:递归地将每个区域划分为两个子区域且决定每个子区域上的输出值,构建二叉决策

4、决策树防止过拟合手段
剪枝处理:从已生成的树上剪掉一些叶结点或叶结点上的子树,并将其父结点或根结点作为新的叶结点,从而简化决策树,以防止过拟合5

5、模型评估
分类准确度、召回率、虚警率、精确度--------均基于混淆矩阵

6、sklearn参数详解,python绘制决策树(数据集:蘑菇集)
c参照网页:https://blog.csdn.net/llh_1178/article/details/78516774
必要包的导入:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score
from sklearn.metrics import roc_auc_score
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值