决策树基础

最新推荐文章于 2024-07-22 16:48:03 发布

小赖是小菜

最新推荐文章于 2024-07-22 16:48:03 发布

阅读量92

点赞数

文章标签：决策树机器学习算法

本文链接：https://blog.csdn.net/ljf_ljfnb/article/details/130910441

版权

🌳决策树算法：

1.算法介绍

定义

决策树(Decision),又称判定树，是数据挖掘技术中的一种重要的分类与回归算法，他是一种以树结构形式来表达的预测分析模型

发展(分类)

CLS:

ID3:信息增益

C4.5:信息增益率(解决ID3中出现的问题)

CART：使用GINI系数来当做衡量标准

RF:随机森林算法(Random Forest)

结构

决策树：节点，分支

节点：根节点，叶子结点，内部节点

分支：连接各个节点

应用

🏥医疗诊断：决策树算法可以用于医疗诊断，通过患者的症状、体征等信息来预测患病类型，例如预测肺癌、心脏病等。

💎金融风控：决策树算法可以用于金融风控，通过分析客户的信用记录、财务状况等信息，来预测客户是否有违约风险，例如信用卡欺诈检测、个人贷款评估等。

☼能源管理：决策树算法可以用于能源管理，通过分析能源消耗的历史数据，来预测未来消耗量和节能方案，例如电力负荷预测、能源管理系统等。

🏪市场营销：决策树算法可以用于市场营销，通过分析客户的购买记录、兴趣爱好等信息，来预测客户的购买行为，例如推荐系统、用户画像等。

👑生产质量控制：决策树算法可以用于生产质量控制，通过分析生产过程中的参数、数据等信息，来预测产品质量和生产异常，例如制造过程监控、质量控制系统等。

2.决策树的构建

在决策树中，顾名思义，我们就是通过从根节点不断决策来对样本进行特征分类得出结果的，而在众多的特征中，第一选择用哪个特征来做决策，第二用什么特征继续对结果进行决策…，我们知道，分类效果最好的肯定是首选，即我们希望决策树内部节点所包含的样本能够尽可能的属于同一类别，然后分类效果第二好的作为第二特征…，然而，如何确定决策特征的分类效果，这时我们引入信息熵作为分类效果的衡量标准：

信息熵：表示随机变量不确定性的度量

通俗地讲，就是物体内部的混乱程度,信息熵公式：
$H (x) = - \sum P (x i) l o g (2, P (x i)) (i = 1, 2, .. n)$
这里举出二分类问题抛硬币问题，我们知道，抛出硬币后正面与反面的概率P都为0.5，此时信息熵的计算如下：
$H (x) = - (0.5 * l o g 0.5 + 0.5 * l o g 0.5) = 1$
而当我们提出假设抛正面或抛反面的概率P为1，即必为正面或反面时，信息熵的计算如下：
$H (x) = - (1 * l o g 1 + 0 * l o g 0) = 0$
由此，我们知道，节点内混乱程度越高，信息熵越大，如上方二分类问题当P=0.5时，混乱程度最大，信息熵也是最大的，当P=1时，混乱程度最低，即节点内的纯度最高，信息熵也就最低。