1.feature
We can not only construct a tree with categorical features,named gender and occupation, but also construct a tree with continous features.
2.Entropy
It can be represented by possibility.
In muti-classes case.
3.Information Gain
It is the change in entropy.
For example,
Information Gain = Entroy(parent) - 1/2 *(Entroy(child 1) + Entroy(child 2))
4. Build a decision tree according to the rule of maximize the information gain.
5.决策树的超参数
为创建泛化能力好的决策树,我们可以调优决策树的多个方面。这些可调优的多个方面称为“超参数”。以下是决策树中使用的一些最重要的超参数。
- 最大深度
决策树的最大深度就是从根到叶之间可能的最大长度。一个最大深度为 k 的决策树最多有 2^k 个叶子。
- 最少样本分割数
一个节点必须至少有min_samples_split
个样本才能足够大以进行拆分。如果一个节点的样本数少于 min_samples_split
个, 则分割过程停止,该节点不会被分割。
- 每片叶子的最小样本数
当分割一个节点时,可能会遇到的一个问题是分割不均匀,例如某个子节点有99个样本,另一个子节点可能只有1个样本。这会影响决策树的生成,也浪费计算资源和时间。为避免这种情况,我们可以为每个叶子上允许的样本数设置一个最小值。
这个数字可以被指定为一个整数,也可以是一个浮点数。如果它是整数,它将表示这片叶子上的最小样本数。如果它是个浮点数,它将被视作每片叶子上的最小样本比例。比如,0.1 或 10% 表示如果一片叶子上的样本数量小于该节点中样本数量的 10%,这种分裂将不被允许。
- 每次分裂的最小样本数
这个参数与每片叶子上的最小样本树相同,只不过是应用在节点的分裂当中。
- 最大特征数
有时,我们会遇到特征数量过于庞大,而无法建立决策树的情况。在这种状况下,对于每一个分裂,我们都需要检查整个数据集中的每一个特征。这种过程极为繁琐。而解决方案之一是限制每个分裂中查找的特征数。如果这个数字足够庞大,我们很有可能在查找的特征中找到良好特征(尽管也许并不是完美特征)。然而,如果这个数字小于特征数,这将极大加快我们的计算速度。