(三)决策树算法梳理

最新推荐文章于 2022-08-14 21:42:22 发布

浅笑云兮

最新推荐文章于 2022-08-14 21:42:22 发布

阅读量225

点赞数

分类专栏：为吃饭学着拿筷子文章标签： ML

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33440324/article/details/88201397

版权

为吃饭学着拿筷子专栏收录该内容

20 篇文章 1 订阅

订阅专栏

1、信息论基础（熵、联合熵、条件熵、信息增益、阻尼不纯度）

熵：自信息的数学期望， $E(log\frac{1}{P(a_i)})=-\sum_{i=1}^{q}P(a_i)logP(a_i)$

联合熵： $-\sum_x\sum_yP(x,y)log_2[P(x,y)]$

条件熵： $\sum_{x\in X}p(x)H(Y|X=x)$

信息增益：G(D,A) = H(D) - H(D|A),D:数据集，A:特征

阻尼不纯度：针对数据集，阻尼值越小，则数据集纯度越高。

2、决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应用场景

ID3：----分类
1、根结点，计算所有可能特征的信息增益，选择信息增益最大的特征作为结点的特征；
2、据特征的不同取值建立子结点
3、对子结点递归的调用以上方法，构建决策树
4、直到所有特征的信息增益均很小或没有特征可选择为止，即可得到一个决策树

C4.5: —分类
相较于ID3，变成用信息增益比来选择特征了。

CART：分类树+回归树
需给定输入随机变量X条件下输出随机变量Y的条件概率分布
1、假设决策树是二叉树，内部结点特征取值为“是”或“否”（左边是取“是”的分支，右边是取“否”的分支）
2、基于训练数据集生成决策树（要尽可能大）
3、用验证数据集对已经生成的树进行剪枝（标准：损失函数最小）并选择最优子树

3、回归树原理
准则：平方误差最小化
首先对训练集进行划分：递归地将每个区域划分为两个子区域且决定每个子区域上的输出值，构建二叉决策

4、决策树防止过拟合手段
剪枝处理：从已生成的树上剪掉一些叶结点或叶结点上的子树，并将其父结点或根结点作为新的叶结点，从而简化决策树，以防止过拟合5

5、模型评估
分类准确度、召回率、虚警率、精确度--------均基于混淆矩阵

6、sklearn参数详解，python绘制决策树（数据集：蘑菇集）
c参照网页：https://blog.csdn.net/llh_1178/article/details/78516774
必要包的导入：
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score
from sklearn.metrics import roc_auc_score
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
(三)决策树算法梳理

1、信息论基础（熵、联合熵、条件熵、信息增益、阻尼不纯度）熵：自信息的数学期望，H(X)=E(log1P(ai))=−∑i=1qP(ai)logP(ai)H(X) = E(log\frac{1}{P(a_i)})=-\sum_{i=1}^{q}P(a_i)logP(a_i)H(X)=E(logP(ai)1)=−∑i=1qP(ai)logP(ai)联合熵：H(X,Y)=−∑x∑yP(x...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。