spark
zhsc
心血来潮,看看自己能坚持多久
展开
-
spark Dataset<Row>的合并 将本地数据转换为spark的 Dataset<Row>类型
由于项目需要,要自己写一个数据转换接口。将Dataset<Row>传入本地算法进行处理,将经过本地算法处理后的行列数据转换为Dataset<Row>返回。1、获取Dataset<Row>数据到本地使用list获取数据: List<Row> list = dataset.collectAsList(); in...原创 2019-11-18 21:46:10 · 3085 阅读 · 1 评论 -
Spark VectorAssembler将多列合并成features
VectorAssembler dealWithFeatures = new VectorAssembler(); data = dealWithFeatures.setInputCols(inputColumns).setOutputCol("features").transform(data);原创 2019-11-16 14:24:35 · 785 阅读 · 0 评论 -
基于spark框架实现的随机森林例子
数据处理: Dataset<Row> dataset = datasets[0]; Dataset<Row>[] splits = dataset.randomSplit(new double[]{0.7, 0.3}); Dataset<Row> training = splits[0]; Da...原创 2019-11-10 11:38:04 · 434 阅读 · 0 评论 -
Spark dataset操作
1、dataset显示dataset.show(7);2、获取dataset所有列的列名String[] columns = dataset.columns();3、选取特定的列显示dataset.select(columns[0],columns[1],columns[2],columns[3]).show()4、将dataset转换为listList<...原创 2019-11-16 13:55:09 · 911 阅读 · 0 评论