spark
ukakasu
这个作者很懒,什么都没留下…
展开
-
spark中udf使用
probabilities列取最大值的角标(以下为scala代码)1、自定义函数def pSort1(probability: DenseVector): Int = { val parry = probability.toArray //parry.zipWithIndex.maxBy(_._1)._2 parry.zipWithIndex.sortWith(_._1 > _....原创 2018-04-23 16:42:25 · 1081 阅读 · 0 评论 -
xgboost on spark
背景 项目需要预测出每一类别的概率,spark ml、mlib中自带算法只能预测出所属类别满足不了需求,因此找到此算法。版本 spark1.6只能用XGBoost0.7之前的版本,此版本训练及预测只能使用rdd不能用df造成一定的不便,预测出的结果只有概率值,需自己与原始数据关联得到完整的记录,最大概率所属类别需自己算出。因此选择了spark2.0与XGBoost0.7。scala...原创 2018-04-23 16:52:28 · 4326 阅读 · 7 评论 -
xgboost-spark源码更改及编译
为解决xgboost-spark只支持二分类,不支持多分类的问题。源码更改参照:https://github.com/dmlc/xgboost/pull/2172/commits/ff73ff02c97006ec67b3d2e09f8afc503d4f0ff11、安装cmake 3.2以上版本 wget https://cmake.org/files/v3.6/cmake-3.6....原创 2018-04-24 16:11:08 · 1038 阅读 · 0 评论 -
spark-streaming多目录追加写
spark-streaming以每分钟为间隔消费kafka中的数据,过滤出对应分区的数据写入到hdfs对应目录中,原生的TextOutputFormat也会产生大量小文件,因此自定义了AppendTextOutputFormat会在已存在文件的基础上进行追加。但此时文件写到一个目录下,通过继承MultipleOutputFormat实现多目录写入,目录结构按照hive分区表的结构即可。//文本文件...原创 2018-04-24 16:56:49 · 2494 阅读 · 1 评论