（5）机器学习--分类模型之决策树算法

north_fish420

已于 2022-11-26 16:58:45 修改

阅读量476

点赞数

文章标签：分类决策树

于 2022-11-26 16:24:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/north_fish420/article/details/128031784

版权

本文深入探讨了机器学习中的决策树算法，主要围绕分类模型展开，讲解了衡量指标如熵和信息增益，以及模型训练、评估过程。讨论了过拟合与欠拟合的定义、解决方法，精度与召回率的概念，并介绍了ROC曲线和AUC作为评估指标的重要性。同时，提到了modeler软件在决策树模型中的应用。

摘要由CSDN通过智能技术生成

回归：目标变量是数值型，得到方程式

分类：目标变量是分类值，可能是一个数，贝叶斯网络概率，神经网络，超平面函数

1理解模型

测量精度

基尼系数

1.1衡量指标

1.1.1熵

混杂样本中，熵是混乱程度的量度，样本集合纯度

当数据量⼀致时，系统越有序，熵值越低；系统越混乱或者分散，熵值越⾼。

决策树目的：找到一个特征值，对其进行分类，然后使得纯度更高

1.1.2信息增益

信息增益： 以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性，熵越⼤，样本的不确定性就越⼤。

因此可以 使⽤划分前后集合熵的差值来衡量使⽤当前特征对于样本集合 D 划分效果的好坏 。

信息增益 = entroy( 前 ) - entroy( 后 )

父集的熵减去子集熵值的加权和

例子：

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。