作者:禅与计算机程序设计艺术
1.简介
LightGBM(Light Gradient Boosting Machine) 是由微软亚洲研究院提出的一个开源的高效率分布式梯度提升决策树框架。相比于传统的GBDT(Gradient Boost Decision Tree),它的特点在于速度快、精度高,并且可以处理多种类型的特征,适用于海量数据场景下的建模。
本文将从以下几个方面对LightGBM的错误树构建及其作用进行阐述:
- LightGBM 中的错误树
- 错误树的概念
- 错误树的构造方法及原理
- 错误树的作用
- 为什么要用错误树?
- 使用错误树构建模型的注意事项
- 模型训练中错误树的作用
本文根据作者个人经验以及相关论文和官方文档的总结编写而成。欢迎大家进行指正和交流!
2.基本概念术语说明
2.1 LightGBM中的基本概念
- 数据集:训练机器学习模型的数据集合。数据集通常包括训练集、验证集和测试集。
- 特征:是指对输入数据进行预测或分类的变量,例如,气温、湿度、高度等。
- 标签/目标变量:是一个连续值或离散值变量,通常用来表示需要预测的结果,例如,房价、股票价格、商品销售额等。
- 样本:是指数据的单个记录,其中包含了特征和标签。
- 特征向量:是一个包含所有特征值的矢量,代表了一个样本。
- 标签/目标值:是指样本对应的真实值。
- 损失函数:是指衡量模型性能的函数,用于描述模型对样本输出的预测值与真实值之间