集成学习方法:梯度提升与随机森林详解
1. 梯度提升的参数设置
梯度提升(Gradient Boosting)在集成学习中是一种强大的技术,它与装袋(Bagging)和随机森林(Random Forests)不同,不仅可以减少方差,还能减少偏差。在梯度提升中,有几个关键的参数设置需要理解。
1.1 树的深度参数
梯度提升在训练单个树时,树的深度参数设置很重要。它通常在变量之间存在显著交互时才需要较大的树深度。实际上,梯度提升使用树桩(深度为 1 的树)往往也能取得与更深树相近的低均方误差(MSE)。树深度的增加对性能的提升可以作为衡量问题中变量交互程度的一个指标。
1.2 步长参数 eps
变量 eps 是一个步长控制参数,类似于优化问题中的步长。梯度提升采用梯度下降步骤,如果步长太大,优化过程可能会发散而不是收敛;如果步长太小,过程可能需要太多迭代。后续会讨论如何调整这个步长参数。
1.3 残差
residuals 变量表示预测误差,即观测值减去预测值。梯度提升算法会对标签的预测进行一系列细化,在每一步都会重新计算残差。在过程开始时,梯度提升将预测初始化为空(或零)值,使得残差等于观测标签。
以下是相关代码示例:
# 代码示例中的部分参数设置
eps = 0.1 # 步长参数
treeDepth = 5 # 树的深度
residuals = list(yTrain) # 初始化残差为训练标签
超级会员免费看
订阅专栏 解锁全文
586

被折叠的 条评论
为什么被折叠?



