spark 运行 xgboost 脱坑记

最新推荐文章于 2024-03-15 12:58:17 发布

爱知菜

最新推荐文章于 2024-03-15 12:58:17 发布

阅读量1.1k

点赞数

分类专栏： Hadoop/Spark/Hive

本文链接：https://blog.csdn.net/rav009/article/details/103770493

版权

在使用Spark运行XGBoost时，遇到DataFrame中空值导致的错误及多分类问题。Spark的VectorAssembler在处理大量0时可能转换为sparse vector，引起XGBoost报错。另外，超过100类别的标签会引发IllegalArgumentException，需手动设置numClasses。解决方法包括处理DataFrame的空值，限制类别数量，并将多分类标签转换为从0开始的整数。

摘要由CSDN通过智能技术生成

坑：

Spark Xgboost 对 spark的dataframe 的空值非常敏感，如果dataframe里有空值（null ， “NaN”），xgboost就会报错。
Spark2.4.4 的 Vector Assemble转换dataframe以后，对于0很多的行，会默认转成sparse vector，造成xgboost报错

示例代码：

val schema = new StructType(Array(
	StructField("BIZ_DATE", StringType, true),
	StructField("SKU", StringType, true),
	StructField("WINDGUST", DoubleType, true),
	StructField("WINDSPEED", DoubleType, true)))


val predictDF = spark.read.schema(schema)
      .format("csv")
      .option("header", "true")
      .option("delimiter", ",")
      .load("/mnt/parquet/data.csv")

import scala.collection.mutable.ArrayBuffer

val featureColsBuffer=ArrayBuffer[String]()
for

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

爱知菜

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

spark版本xgboost的jar包

12-16

spark版本xgboost的jar包，博客中有scala-spark使用案例

树家族集成篇--xgboost篇（基于spark）

探索数据奥秘的博客

08-01

1580

1、数据质量要求算法机器学习类别缺失值连续值不平衡数据离群点数据归一离散特征处理树形特征选择依据 spark实现过拟合处理、参数 xgboost 二分类、多分类、回归不敏感不敏感不敏感敏感不敏感 one-hot 树或者线性模型目标函数增益第三方梯度提升决策树（GBDT） spark支持二分类、回归敏感，..

参与评论您还未登录，请先登录后发表或查看评论

Spark - ml.dmlc.xgboost4j / spark 版本匹配与 NoSuchMethodError 解决

BITDDD小栈

03-18

2259

spark 项目引入 ml.dmlc.xgboost4j 训练并读取 xgboost 模型，load 模型期间报错 NoSuchMethodError，通过源码的分析得到 xgboost 与 spark 版本对应关系。

在Spark中使用xgboost训练模型

u011250186的博客

09-17

2666

spark上运行xgboost模型，具有内存运行，速度更快，减少数据传输的优势。 1、交互模式测试使用spark运行xgboost首先需要下载依赖的jar包，下载地址https://github.com/criteo-forks/xgboost-jars/releases，主要需要xgboost4j-0.72-criteo-20180518_2.10-linux.jar 在堡垒机中使用命令 spark-shell --jars xgboost*.jar，进入交互模式，可以编写代码进行测试。...

[机器学习] XGBoost on Spark 分布式使用完全手册

热门推荐

摩登都市天空---专栏

01-23

1万+

XGBoost分布式概述在XGBoost设计之初，就考虑了分布式的实现。树模型最重要的一个问题即是分割点的确定，XGBoost在单机的环境中，数据全部load进内存，feature已经按照值的大小排好序，采用一个叫做“exact greedy algorithm”算法，经过线性扫描，就可以快速的找到最佳的分割点；但是在分布式环境中，数据分布在各个节点，这种情况下，要找到最佳的分割点是很不容易的...

xgboost实战--python&spark训练预测

进击的数据小白

04-27

3383

xgboost介绍 xgboost是大规模并行boosted tree的工具，它是目前最快最好的开源boosted tree工具包，比常见的工具包快10倍以上。在数据科学方面，有大量kaggle选手选用它进行数据挖掘比赛，其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面，xgboost的分布式版本有广泛的可移植性，支持在YARN, MPI, Sungrid Engine等各个平台上面运...

sparkxgb:Spark上XGBoost的R接口

05-08

星火gb概述sparkxgb是扩展，可提供Spark上的接口。安装您可以使用以下命令安装sparkxgb的开发版本： # sparkxgb requires the development version of sparklyrdevtools :: install_github( " rstudio/sparklyr " )...

Spark运行架构

02-25

本文来自于cnblogs，主要介绍了Spark的定义，简单的流程，运行流程及展示，对于结果的分析等等。lApplication：SparkApplication的概念和HadoopMapReduce中的类似，指的是用户编写的Spark应用程序，包含了一个Driver...

Xgboost Spark Jar包及Python接口文件

05-26

在Spark上运行Xgboost，我们需要两个核心的jar包：xgboost4j_2.11-1.1.2.jar和xgboost4j-spark_2.11-1.1.2.jar。前者是Xgboost的Java版本，用于提供基础的决策树算法和优化功能；后者则是专门针对Spark的扩展，允许...

Spark实现xgboost多分类(python)

rosefun96的博客

07-02

8999

1. spark-xgboost Java包主要需要xgboost4j-spark-0.90.jar, xgboost4j-0.90.jar, 以及调用代码 sparkxgb.zip. GitHub上面有xgboost java 实现的包，链接：xgboost; 但我省事，用了zhihu xgboost的分布式版本(pyspark)使用测试的下载链接。注意，xgboost 的版本号和sparkxgb内的内容对应。 2. xgboost多分类我是使用pyspark 运行，通过 pyspark --

xgboost4j-spark 0.8版本的jar包

06-14

2018年6月基于JDK1.8 编译的 xgboost4j-spark 0.8版本的jar包

xgboost4j-spark.jar 0.7版本 xgboost4j.jar 0.7版本以及其他jar包

09-12

很多人反应编译不出xgboost4j的相关jar包现将所有xgboost4j生成的jar包上传供学习工作使用 jar包是在jvm-packages下生成最新的0.7版本

深入理解XGBoost：分布式实现

hellozhxy的博客

04-03

1759

文章来源：公众号【Coggle数据科学】写在前面本文将重点介绍XGBoost基于Spark平台Scala版本的实现，带领大家逐步完成特征提取、变换和选择、XGBoost模型训练、Pipelines、模型选择。 XGBoost简单回顾 XGBoost（Extreme Gradient Boosting）由华盛顿大学的陈天奇博士提出，最开始作为分布式（深度）机器学习研究社区（DMLC）小组...

XGBoost的优势与不足：全面解析这个让无数数据科学家疯狂的算法

最新发布

m0_46069937的博客

03-15

4126

XGBoost(eXtreme Gradient Boost)，中文是极致梯度提升，它是经过优化的分布式梯度提升库，旨在高效、灵活且可移植。XGBoost提供了一个并行树提升，可以快速准确地解决许多数据科学问题，相同的代码运行在主要的分布式环境上，如Kubernetes，Hadoop，SGE，Dask，Spark，PySpark，并且可以解决数十亿个示例以外的问题。记得在学吴恩达老师的机器学习课程时，隐约听到这么一句话：以后的决策树方面几乎都是用XGBoost模型，这个模型已经做的非常好了。

XGBoost缺失值引发的问题及其深度分析

美团技术团队

08-15

3959

总第349篇2019年第27篇背景XGBoost模型作为机器学习中的一大“杀器”，被广泛应用于数据科学竞赛和工业领域，XGBoost官方也提供了可运行于各种平台和环境...

pyspark使用XGboost训练模型实例

Toby的博客

08-04

1840

pyspark训练Xgboost模型

xgboost在spark集群使用指南

shanxishiwenli的专栏

05-11

2128

1.maven环境配置 <dependency> <groupId>ml.dmlc</groupId> <artifactId>xgboost4j</artifactId> <version>0.90</version> </dependency> <dependency> <groupId>ml.dmlc</groupId> <

Xgboost实战-Spark版

吴世俊的博客

04-21

1613

一分钟说清楚原理请转：介绍代码

滴滴基于 Ray 的 XGBoost 大规模分布式训练实践

DiDi_Tech的博客

01-25

3532

背景介绍作为机器学习模型的核心代表，XGBoost 在滴滴众多策略算法业务场景中发挥着至关重要的作用。因此，保障并持续提升 XGBoost 模型的离线训练及在线推理稳定性一直是机器学习平台的重点工作。同时，面对多样化的业务场景定制需求和数据规模从万到亿级的跨度，XGBoost 的训练效率和灵活性也成为我们需要重点关注的问题。由于平台历史架构原因，平台 XGBoost 模型训练仍是开源 XGBoos...

Spark运行架构详解：Driver, Executor与ClusterManager

"Spark运行架构主要讲解了Spark应用程序的基本组成，包括Application、Driver、Executor以及ClusterManager等核心概念，同时也提到了Spark在不同集群管理模式下的运行机制。在Spark中，Application是用户编写的程序...