One hot 编码

数值化

import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer, VectorAssembler}
import org.apache.spark.sql.types._

//把grade这一列数值化
val indexer = new StringIndexer()
.setInputCol("grade")
.setOutputCol("gradeIndex")
.fit(dffull)
val indexed = indexer.transform(dffull)

//对grade这列进行 有效位编码
val encoder = new OneHotEncoder()
.setInputCol("gradeIndex")
.setOutputCol("gradeVec")
val encoded = encoder.transform(indexed).drop("grade").drop("gradeIndex")

// 将其他列组合
val assembler= new VectorAssembler()
.setinputCols(Array("X","c_idx","c idxvec"))
.setOutputCol("features”)
val vecDF: DataFrame = assembler.transform(fe)

首先创建对象 StringIndexer 然后输入列名与转化后的列名。
然后进行transform。转化后的结果采用libsvm格式存储在列表中。
然后通过VectorAssembler将其他列进行组合。

对于需要删除已经做过转化的列,采用drop(),一次只能删除一个列。

参考:
https://my.oschina.net/kyo4321/blog/2050708
https://cloud.tencent.com/developer/article/1021585
对于one hot编码首先需要将数据数值化,然后把将数值进行onehot
所有的操作都是对dataframe来进行的,参看如何RDD转换dataframe

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值