回归树
回归树是一个回归模型,模型具有二叉树结构。实际思想就是将特征空间划分为若干个子空间,并计算每个子空间内样本标注的均值。预测时,只需判断样本落入哪个子空间,其对应的子空间标注均值即是其预测值。
如何划分特征空间?
以连续性特征空间为例,要选择合适的特征维度和合适的划分点。
具体方法就是遍历所有的特征维度和候选划分点,使得划分后,预测误差的平方和最小(两个子空间的总方差和最小)。重复该过程直到达到停止条件。
预测误差的平方和:
E
=
∑
x
i
∈
R
1
(
y
i
−
c
1
)
2
+
∑
x
i
∈
R
2
(
y
i
−
c
2
)
2
E = \sum\limits_{x_i\in R_1}(y_i-c_1)^2+\sum\limits_{x_i\in R_2}(y_i-c_2)^2
E=xi∈R1∑(yi−c1)2+xi∈R2∑(yi−c2)2
c
1
,
c
2
c_1,c_2
c1,c2为子空间的样本标注均值:
c
1
=
1
∣
N
1
∣
∑
x
i
∈
R
1
y
i
c_1=\frac{1}{|N_1|}\sum\limits_{x_i\in R_1} y_i
c1=∣N1∣1xi∈R1∑yi,
c
2
=
1
∣
N
2
∣
∑
x
i
∈
R
2
y
i
c_2=\frac{1}{|N_2|}\sum\limits_{x_i\in R_2} y_i
c2=∣N2∣1xi∈R2∑yi。
分类树
分类树是一个分类模型,和回归树类似也具有二叉树结构。实际思想也是划分特征空间,每个子空间天然属于某一类,预测时只需判断样本落入哪个子空间,其对应子空间类别即是预测类别。
如何划分特征空间?
以连续特征空间为例,也需要选择合适的特征维度和合适的划分点。与回归树不同,分类树用基尼系数指数来评价每一步的划分性能。具体来说,针对一个集合,选择一个特征维度,然后选择一个划分点,根据特征维度值是否等于该划分点,可以将集合划分为两个子集,然后计算两个子集的基尼指数的加权和,子集权重等于该子集数量占原集合的比例。该基尼指数加权和称为集合在某划分条件下的基尼指数。
基尼指数定义:
基尼指数可以用来描述一个分布或者一个集合的不确定性(和熵类似)。其数值等于 任意选择两个样本, 这两个样本不属于同一类的概率,如下式:
G
a
i
n
(
D
)
=
1
−
∑
k
=
1
C
p
k
p
k
Gain(D) = 1-\sum\limits_{k=1}^{C} p_kp_k
Gain(D)=1−k=1∑Cpkpk。
G
a
i
n
(
D
,
A
)
=
∣
D
1
∣
∣
D
∣
G
a
i
n
(
D
1
)
+
∣
D
2
∣
∣
D
∣
G
a
i
n
(
D
2
)
Gain(D,A) = \frac{|D_1|}{|D|}Gain(D_{1})+\frac{|D_2|}{|D|}Gain(D_{2})
Gain(D,A)=∣D∣∣D1∣Gain(D1)+∣D∣∣D2∣Gain(D2)