Spark知识
怀梦远航
默默搬砖,死磕到底
展开
-
RDD输出到一个文件中
在使用Spark的机器学习模型时,有时为了方便观看输出数据,我们需要将RDD输出到一个文件中,比如我们需要将预测的label输出到一个文件,这样方便我们观看每一个样本的label。你若是输出到多个文件,看起来很不方便。尤其当你需要把预测的label拷贝原始数据所在的excel表格时,若label输出到多个文件,拷贝也很不方便。 但是saveAstextFile默认是将RDD输出到多个文件的,因此原创 2016-10-10 11:56:01 · 6957 阅读 · 0 评论 -
将RDD[vector]转化成DataFrame
机器学习中的feature是vector,有时我们在得到RDD[Vector]后,想给feature添加索引,然后转化成DataFrame,这样我们可以根据id来知道某一个feature对应是哪一个样本。根据index来取就方便很多。 实现: val us = feature.zipWithIndex()//feature是机器学习需要的特征构成的RDD,每一行是一个向量 //然后想将us转原创 2016-10-10 10:35:11 · 3965 阅读 · 0 评论