(My notes)Decision Tree

1.feature

We can not only construct a tree with categorical features,named gender and occupation, but also construct a tree with continous features.

2.Entropy

Entropy = - \frac{m}{m+n}log_{2}(\frac{m}{m+n})-\frac{n}{m+n}log_{2}(\frac{n}{m+n})

It can be represented by possibility.

Entropy = - p_{1}log_{2}p_{1}-p_{2}log_{2}p_{2}

In muti-classes case.

Entropy = - p_{1}log_{2}p_{1}-p_{2}log_{2}p_{2}-...-p_{n}log_{2}p_{n}=-\sum_{i=1}^{n}p_{i}log_{2}p_{i}

3.Information Gain

It is the change in entropy.

For example,

Information Gain = Entroy(parent) - 1/2 *(Entroy(child 1) + Entroy(child 2))

4. Build a decision tree according to the rule of maximize the information gain.

5.决策树的超参数

为创建泛化能力好的决策树,我们可以调优决策树的多个方面。这些可调优的多个方面称为“超参数”。以下是决策树中使用的一些最重要的超参数。

  • 最大深度

决策树的最大深度就是从根到叶之间可能的最大长度。一个最大深度为 k 的决策树最多有 2^k 个叶子。

  • 最少样本分割数

一个节点必须至少有min_samples_split个样本才能足够大以进行拆分。如果一个节点的样本数少于 min_samples_split 个, 则分割过程停止,该节点不会被分割。

  • 每片叶子的最小样本数

当分割一个节点时,可能会遇到的一个问题是分割不均匀,例如某个子节点有99个样本,另一个子节点可能只有1个样本。这会影响决策树的生成,也浪费计算资源和时间。为避免这种情况,我们可以为每个叶子上允许的样本数设置一个最小值。

这个数字可以被指定为一个整数,也可以是一个浮点数。如果它是整数,它将表示这片叶子上的最小样本数。如果它是个浮点数,它将被视作每片叶子上的最小样本比例。比如,0.1 或 10% 表示如果一片叶子上的样本数量小于该节点中样本数量的 10%,这种分裂将不被允许。

  • 每次分裂的最小样本数

这个参数与每片叶子上的最小样本树相同,只不过是应用在节点的分裂当中。

  • 最大特征数

有时,我们会遇到特征数量过于庞大,而无法建立决策树的情况。在这种状况下,对于每一个分裂,我们都需要检查整个数据集中的每一个特征。这种过程极为繁琐。而解决方案之一是限制每个分裂中查找的特征数。如果这个数字足够庞大,我们很有可能在查找的特征中找到良好特征(尽管也许并不是完美特征)。然而,如果这个数字小于特征数,这将极大加快我们的计算速度。

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值