spark gbdt 自定义阈值取出模型概率，并转换label

最新推荐文章于 2021-10-28 16:49:04 发布

Daisy和她的单程车票

最新推荐文章于 2021-10-28 16:49:04 发布

阅读量868

点赞数 1

分类专栏： spark 机器学习文章标签： spark 模型概率

本文链接：https://blog.csdn.net/u012513618/article/details/102519570

版权

在大家使用spark 的时候，会发现，ML库下的模型生成的概率是一个Vector，那么如何将这个Vector的概率为1的那一列取出呢？并且自定义阈值，按照这个阈值切分得到label的0，1类呢？
这时候udf函数就派上了很好的用场，废话不多说，直接上代码

取出Vector 的第n列，生成新的dataframe

切分Vector得到每一列的值，形如调用下面的代码生成features,对feature进行切割

val vectorAssembler = new VectorAssembler()
  .setInputCols(int_col++dou_col).setOutputCol("features")

udf函数代码如下：

val code_par:(org.apache.spark.ml.linalg.Vector=>Double)=(arg:org.apache.spark.ml.linalg.Vector)=>{
      val temp =arg(1)
      temp
    }
    val parsecol=udf(code_par)
    val df_temp =df.withColumn(add_col,parsecol(df(“features”)))
    df_temp

当训练完成后，transform 预测数据后，也会生成一个形如上面这个features的parobability列，调用该udf函数，即可完成对label=1的prob的取出；

模型概率设置阈值࿰

最低0.47元/天解锁文章

Daisy和她的单程车票

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
spark gbdt 自定义阈值取出模型概率，并转换label

在大家使用spark 的时候，会发现，ML库下的模型生成的概率是一个Vector，那么如何将这个Vector的概率为1的那一列取出呢？并且自定义阈值，按照这个阈值切分得到label的0，1类呢？这时候udf函数就派上了很好的用场，废话不多说，直接上代码取出Vector 的第n列，生成新的dataframe切分Vector得到每一列的值，形如调用下面的代码生成features,对feature...
复制链接

扫一扫