机器学习-树模型基础
一、树模型的基础
1.1. 二叉树与多叉树
略。
1.2. 树模型中的“损失”
如果类比一般机器学习模型中的损失函数的概念,树模型中的“损失的下降”指的是树的一个结点分裂为多个子节点时,子节点的混乱程度之和是否要比父节点小。熵和Gini指标是表示混乱程度的两种经典的方式。
(1)熵:表示树的一个结点内部信息混乱程度。
E n t r o p y = − ∑ c = 1 C P ( c ) ∗ l o g 2 ( P ( c ) ) Entropy=-\sum_{c=1}^CP(c)*log_2(P(c)) Entropy=−∑c=1CP(c)∗log2(P(c)),其中 C C C表示类别的数量, c c c表示第几个类, P ( c ) P(c) P(c)表示该类别出现的比例。熵是非负数,熵越小树的结点越纯。
举个例子,在树的一个结点中,如果存在A,B和C三个类别的数据,数量比例分别为20%,30%和50%,那么当前结点的熵值为: e n t r o p y = − 0.2 ∗ l o g 2 ( 0.2 ) − 0.3 ∗ l o g 2 ( 0.3 ) − 0.2 ∗ l o g 2 ( 0.5 ) = 1.4854 entropy=-0.2*log_2(0.2)-0.3*log_2(0.3)-0.2*log_2(0.5)=1.4854 entropy=−0.2∗log2(0.2)−0.3∗log2(0.3)−0.2∗log2(0.5)