【机器学习】决策树原理、调参、可视化 + 银行信用卡欺诈检测案例（含数据集）

—Xi—

已于 2022-09-28 16:24:27 修改

阅读量2.6k

点赞数 4

分类专栏：机器学习文章标签：机器学习决策树算法人工智能分类

于 2022-08-30 21:52:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51933492/article/details/126556140

版权

目录

决策分类树

2.1 ID3算法（信息增益）

2.2 C4.5 算法（信息增益率）

2.3 CART算法（Gini系数）

CART构造决策树实例

决策树的剪枝

sklearn实现决策树

决策树的调参

银行借贷欺诈检测案例

调优及可视化

决策分类树

2.1 ID3算法（信息增益）

ID3是决策树学习算法中最具有影响和最为典型的算法，它的基本思想是，利用信息熵的原理，选择信息增益最大的属性作为分类属性。

ID3算法在分类时选择信息熵下降最快的类别作为分类依据

$entropy(P_{i}) =- \sum_{i = 1}^{n}P_{i}log_{2}P_{i}$

2.2 C4.5 算法（信息增益率）

C4.5算法是ID3算法的拓展，它继承了ID3算法的优点并对ID3算法进行了改进和补充。

C4.5算法采用信息增益率作为选择分支属性的标准，克服了ID3算法中信息增益选择属性时偏向选择取值多的属性的不足

能够处理连续型的属性，将连续性属性离散化，将连续性属性的值分为不同区间，依据是比较各个分裂点Gian值的大小
简单的忽略缺失数据，即在计算增益时，仅考虑具有属性值的记录

2.3 CART算法（Gini系数）

基尼指数代表了模型的不纯度，基尼系数越小，不纯度越低，特征越好。这和信息增益（率）正好相反。

基尼指数反映了从数据集中随机抽取两个样本，其类别标记不一致的概率。因此基尼指数越小，则数据集纯度越高。基尼指数偏向于特征值较多的特征，类似信息增益。基尼指数可以用来度量任何不均匀分布，是介于 0~1 之间的数，0 是完全相等，1 是完全不相等。

$Gini = 1-\sum_{i = 1}^{n}[P_{(i)}]^{2} = \sum_{i = 1}^{n}P_{i}(1-P_{i})$

CART算法处理分类问题时，以叶子节点上样本投票预测类别，处理回归问题时，以叶子节点的样本均值作为预测值

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。