Spark大数据
郝同学
东南大学 九龙湖与四牌楼的匆匆过客
天津大学 津南郊区逐渐成长的算法人
欢迎各位NLPer互相交流学习!
展开
-
【Spark】Spark训练Lr模型,并保存为Pmml
scala版本spark构建的Lr模型:模型接口详情可以参考spark的scala的API文档:https://spark.apache.org/docs/latest/api/scala/org/apache/spark/index.htmlimport org.apache.spark.ml.Pipelineimport org.apache.spark.ml.classification.{LogisticRegression, LogisticRegressionModel}import o原创 2021-08-10 18:36:27 · 1062 阅读 · 0 评论 -
【Spark】如何将spark中DataFrame的内容保存到一个或多个csv文件
一、问题背景 原本我是想利用spark处理大量的数据集来训练Lr模型,然后需要提取数据集中的标签索引,然后我就想将标签的索引保存成csv格式的数据,再直接导入到hive表中。 这里我们需要得到csv格式的数据,首先我想到可以先创建成dataframe格式的数据==>再转换成csv格式数据。二、解决方案 经过我的一系列变换,将我所需要的数据都存储到了ListBuffer的数组中,然后直接利用createDataFrame来创建df数据,代码如下:import org.apache.spa原创 2021-07-21 18:30:23 · 7648 阅读 · 0 评论