One hot 编码

最新推荐文章于 2022-12-19 21:21:49 发布

一碗竹叶青

最新推荐文章于 2022-12-19 21:21:49 发布

阅读量562

点赞数

分类专栏： BigData # SparkML 文章标签：大数据 spark

本文链接：https://blog.csdn.net/baidu_38127162/article/details/109383393

版权

BigData 同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

SparkML

8 篇文章 0 订阅

订阅专栏

数值化

import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer, VectorAssembler}
import org.apache.spark.sql.types._

//把grade这一列数值化
val indexer = new StringIndexer()
.setInputCol("grade")
.setOutputCol("gradeIndex")
.fit(dffull)
val indexed = indexer.transform(dffull)

//对grade这列进行 有效位编码
val encoder = new OneHotEncoder()
.setInputCol("gradeIndex")
.setOutputCol("gradeVec")
val encoded = encoder.transform(indexed).drop("grade").drop("gradeIndex")

// 将其他列组合
val assembler= new VectorAssembler()
.setinputCols(Array("X","c_idx","c idxvec"))
.setOutputCol("features”)
val vecDF: DataFrame = assembler.transform(fe)

首先创建对象 StringIndexer 然后输入列名与转化后的列名。
然后进行transform。转化后的结果采用libsvm格式存储在列表中。
然后通过VectorAssembler将其他列进行组合。

对于需要删除已经做过转化的列，采用drop（），一次只能删除一个列。

参考：
https://my.oschina.net/kyo4321/blog/2050708
https://cloud.tencent.com/developer/article/1021585
对于one hot编码首先需要将数据数值化，然后把将数值进行onehot
所有的操作都是对dataframe来进行的，参看如何RDD转换dataframe

一碗竹叶青

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
One hot 编码

参考：https://my.oschina.net/kyo4321/blog/2050708https://cloud.tencent.com/developer/article/1021585对于one hot编码首先需要将数据数值化，然后把将数值进行onehot所有的操作都是对dataframe来进行的，参看如何RDD转换dataframe数值化import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer, VectorAs
复制链接

扫一扫