机器学习 —— 决策树及其集成算法(Bagging、随机森林、Boosting)

最新推荐文章于 2024-07-23 16:20:46 发布

weixin_30724853

最新推荐文章于 2024-07-23 16:20:46 发布

阅读量923

点赞数

文章标签：数据结构与算法人工智能

原文链接：http://www.cnblogs.com/captain_ccc/articles/4090892.html

版权

本文为senlie原创，转载请保留此地址：http://www.cnblogs.com/senlie/

决策树
---------------------------------------------------------------------
1.描述：
以树为基础的方法可以用于回归和分类。
树的节点将要预测的空间划分为一系列简单域
划分预测空间的规则可以被建模为一棵树，所以这种方法也叫决策树方法
bagging，随机森林，boosting 是多棵决策树组合起来采用投票方式产生一个预测结果的方法
机制来产生预测结果

2.如何选特征：
回归树：RMSE(Root Mean Square Error)
分类树：信息增益、基尼系数

3.回归树：
RMSE ：
假设一个集合被划分为 M 部分，

f (x) = \sum m = 1 M c m I (x \in R m)

R M S E = \sum j = 1 J \sum i \in R j (y i -

R 1 (j, s) = {X | X j \leq s}, R 2 (j, s) = {X |

c 1 = a v e (y i | x i \in R 1 (j, s)), c 2

4.分类树：

4.1信息增益：
X的熵

H (Y | X = v)

H (Y | X) = \sum i p (X = v i) H (Y | X = v i)

I G (Y | X) = H (Y) - H (Y | X)

示例：

解释左图的计算方法，右图类似
-(9/14 * log(9/14) + 5/14 * log(5/14)) = 0.940
-(3/7 * log(3/7) + 4/7 * log(4/7)) = 0.985
-(6/7 * log(6/7) + 1/7 * log(1/7)) = 0.592
I(S|Income) --> 表示数据集合 S 按照 Income 特征划分为子集后信息不确定性减少量
= 0.940 - (7/14)*0.985 - (7/14)*0.592
= 0.151
上面的示例中因为选择特征 Income 来划分集合的信息增益最大，所以应该选择 Income

4.2基尼系数：
假充集合 T 包含 N 个类别，第 j 个类别的概率是

G i n i (T) = - \sum i = 1 n p i log p i

G i n i s p l i t (T) = N 1 N G i n i ( T

建树的过程：
1).选择一个"最好"的特征A来划分节点
2).对于特征A的每一个值，创建出一个分支来划分样本
3).重复步骤1)，2)直到信息增益或基尼系数足够小

5.剪枝
todo

Bagging
------------------------------------------------------------------
算法过程：
1).从训练集中采样得到新的训练集
2).重复步骤1 B次得到B个新的训练集，针对B个不同的训练集分别训练一棵树
3).平均每一棵树的预测值或采用少数服从多数得到分类结果

f^b a g = 1 B \sum b = 1 B

Out-of-Bag Error Estimation：
可以采用步骤1过程中没有采样到的数据作为对应训练集生成的树的测试集评估训练结果

Random Forests
-------------------------------------------------------------------
算法过程：
1).从训练集中采样得到新的训练集
2).重复步骤1 B次得到B个新的训练集，针对B个不同的训练集分别训练一棵树
3).训练树的过程中，先从所有特征中随机选择 m 个特征作为候选，然后再从
这 m 个特征中选择最优的一个来划分预测空间

比较：
Bagging : m = p
Random Forests : m =

Boosting
------------------------------------------------------------------
回归问题算法过程：
1).设初值，设预测值

调节参数：
1).树的数量 B。如果 B 太大容易 overfitting
2).收缩参数

比较：
Bagging：树"并行"生成
Boosting：树"串行"生成

GBDT
-----------------------------------------------------------------
boosting 是一种算法思路，它的基函数可以采用各种分类器、预测器。其中采用
决策树为基函数的 boosting 就叫 GBDT，即 Gradient Boosting Decision Tree。

使用 MPI 并行化随机森林算法
-----------------------------------------------------------------

算法过程：
输入：训练数据集 D ，建树数目 N ，进程数目 n
输出：N 棵决策树 *T
1).分配要生成 N/n 棵决策树的任务给每个进程，如果该进程为最后一个进行，则它要生产的
决策树的数目为 N/n * (1 - n) + N;
2).对于每个进程，使用随机森林算法生成 N/n (或N/n * (1 - n) + N)棵树组成的森林
3).当生成完随机森林，若该进程为从进程则发送已经生成好了的随机森林参数给主进程；若该进程
为主进程则接收其他进程传过来的随机森林参数，并合并要一个决策树数组 T
4).主进程将 N 棵决策树组成的随机森林模型参数存储起来。

Q&A：
??随机森林算法和 Adaboost 哪个比较容易过拟合
随机森林算法比较容易过拟合。
1.随机森林的决策树尝试拟合数据集，有潜在的过拟合问题，
而 boosting 的决策树则是拟合数据集的残差，然后更新残差，由新的决策树
再去拟合新的残差。这虽然学得慢，但大大地降低了过拟合的风险
2.boosting 的每棵决策树通常都很小，一般分裂次数只有 1，生成的决策树一般是树桩
3.通过收缩参数，可以放慢拟合的速度，允许更多不同的树来拟合残差。不同的树带来的是多样性，
也降低了过拟合的风险

参考：

转载于:https://www.cnblogs.com/captain_ccc/articles/4090892.html

weixin_30724853

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习 —— 决策树及其集成算法(Bagging、随机森林、Boosting)

本文为senlie原创，转载请保留此地址：http://www.cnblogs.com/senlie/决策树---------------------------------------------------------------------1.描述：以树为基础的方法可以用于回归和分类。树的节点将要预测的空间划分为一系列简单域划分预测空间的规则可以被建模为一棵树，所以这种方法也叫决策...
复制链接

扫一扫