CSDN机器学习笔记二决策树、随机森林

最新推荐文章于 2024-09-21 11:20:57 发布

pan060757

最新推荐文章于 2024-09-21 11:20:57 发布

阅读量526

点赞数

分类专栏：机器学习、决策树文章标签：机器学习

机器学习、决策树专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、决策树

1..示例

要决策一个人喜不喜欢电子游戏。
这里写图片描述

数据丢进去，数据通过节点一步步走，最终会到一个叶子节点，没有一个数据是在中间的。

这里写图片描述

1.训练阶段
从给定的训练数据集DB，构造出一棵决策树

class=DecisionTree(DB)
 
 1
 
 1

2.分类阶段
从根开始，按照决策树的分类属性逐层往下划分，直到叶节点，获得概念（决策、分类）结果。

y=DecisionTree(x)
 
 1
 
 1

另一个例子：
明天有一个约会对象，要不要去见呢？
这里写图片描述
年龄作用最大，
长相其次，是按什么来决定
哪些特征当根节点呢？当根节点，

2.决策树-熵

表示物体内部的混乱程度。

这里写图片描述

如：两个集合
A：[1,2,3,4,2,1,3,5]
B：[1,1,1,1,2,2,1]
对于两个集合，它们的熵值A>B，因为A比较混乱。

越接近0，熵值越大。
熵和Gini系数都是计算稳定系数。

计算熵的示例：

一批数据，明天去不去打球：
这里写图片描述

首先选根节点，
构造树的基本想法是随着树深度的增加，节点的熵迅速地降低。熵降低的速度越快越好，这样我们有望得到一棵高度最矮的决策树。
在没有给定任何天气信息时，根据历史数据，我们只知道新的一天打球的概率是9/14，不打的概率是5/14。此时的熵为0.940：
这里写图片描述

属性有4个：outlook，temperature，humidity，windy。我们首先要决定哪个属性作为根节点。
对每项指标分别统计：在不同的取值下打球和不打球的次数。

outlook=sunny时，2/5的概率打球，3/5的概率不打球，entropy=0.971
outlook=overcast时,entropy=0
outlook=rainy时,entropy=0.971

而根据历史编译数据，outlook取值为sunny，overcast，rainy的概率分别是5/14，4/14，5/14，所以当已知变量outlook的值时，信息熵为:5/14*0.971+4/14*0+5/14*0.971=0.693
这样的话系统熵就从0.940下降到了0.693，信息增溢gain(outlook)为0.940-0.693=0.247
同样可以计算出gain(temperature)=0.029,gain(humidity)=0.152,gain(windy)=0.048。
gain(outlook)最大（即outlook在第一步使系统的信息熵下降得最快），所以决策树的根节点就取outlook。

然后同样的计算第二个节点。

如果加一个ID数据列，作为根节点的话。计算的熵值为0。其特征是属性非常多，每个分类的数据非常少。这样的数据我们最终希望把它剔除。

ID3：信息增益（很少使用）
C4.5：信息增益率
CART：Gini系数
Gini系数和熵不要同时使用。

评价函数：建立完决策树，要评介它好不好。这里写图片描述希望它越小越好，类似损失函数了。
t是叶子节点，N_t代表一共的样本树。