1. lightgbm优势在哪里?
1.1 加速运算:
1).支持并行,可以使用多线程技术充分利用电脑的多个cpu计算(对特征进行划分)
2).支持分布式,可以充分利用多台电脑进行计算,支持分布式也可以使它支持超大数据集上训练
3).支持GPU运算,理论上使用GPU要比cpu要高10~20%
4).内部算法也使用分箱技术,feature bundle等技术加速训练,相比于其他算法(如svm等)训练速度快很多倍
5).生成的模型文件较小,占用内存也小,而且预测速度很快,适合产业界大数据计算速度和数量上的快速预测
1.2 数据预处理简单:
1).不需要提前对类别数据进行onehot编码,lightgbm内部会直接对其编码。
2).支持连续特征处理,不需要自己做分箱操作
3).可能只需要对缺失数据做一下优化
1.3 使用简单,效果不错:
1).安装和使用也非常简单,内部定义的函数非常多,只需要设置不同的参数就能满足个新化模型的需要
2).很多比赛排名前几的都有lightgbm的身影
3).支持增量学习,满足线上新数据的不断学习迭代
1.4 同时支持回归和分类:
1).同时支持回归和分类算法
2).支持设置不同的目标函数进行优化