- 博客(3)
- 资源 (9)
- 收藏
- 关注
原创 spark 运行 xgboost 脱坑记
坑: Spark Xgboost 对 spark的dataframe 的空值非常敏感,如果dataframe里有空值(null , “NaN”),xgboost就会报错。 Spark2.4.4 的 Vector Assemble转换dataframe以后,对于0很多的行,会默认转成sparse vector,造成xgboost报错 示例代码: val schema = new Struct...
2019-12-30 18:01:47 1158
转载 Spark Xgboost 分布式运行原理
参考xgboost官网文章:https://xgboost.readthedocs.io/en/latest/jvm/xgboost4j_spark_tutorial.html Parallel/Distributed Training The massive size of training dataset is one of the most significant characteri...
2019-12-26 14:43:10 806
原创 使用 pyarrow 将parquet转成spark能用的parquet
最近发现spark的一个坑(发现时spark最新为2.4.4版本),spark对parquet格式有特殊要求,不支持带“uint8”类型的parquet https://github.com/apache/arrow/issues/1470 如何使用pyarrow把一个parquet转换一下呢? import pyarrow.parquet as pq df=pq.read_table('...
2019-12-06 18:43:51 1565
sping.net 2.0M1 和 NHiernate3.3结合的一个小例子
2012-09-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人