spark
文章平均质量分 75
tiansheng1225
这个作者很懒,什么都没留下…
展开
-
Spark Pipeline
一个简单的Pipeline,用作estimator。Pipeline由有序列的stages组成,每个stage是一个Estimator或者一个Transformer。 当Pipeline调用fit,stages按顺序被执行。如果一个stage是一个Estimator,将调用Estimator的fit方法,使用“输入dataset”来拟合一个模型。 然后,作为transformer的mod转载 2018-01-29 14:43:25 · 283 阅读 · 0 评论 -
java-spark的各种常用算子的写法
通常写spark的程序用scala比较方便,毕竟spark的源码就是用scala写的。然而,目前java开发者特别多,尤其进行数据对接、上线服务的时候,这时候,就需要掌握一些spark在java中的使用方法了 一、map map在进行数据处理、转换的时候,不能更常用了 在使用map之前 首先要定义一个转换的函数 格式如下: Function<String,...转载 2018-08-30 16:52:18 · 206 阅读 · 0 评论 -
spark mapPartition方法与map方法的区别 以及 join的用法
rdd的mapPartitions是map的一个变种,它们都可进行分区的并行处理。 两者的主要区别是调用的粒度不一样:map的输入变换函数是应用于RDD中每个元素,而mapPartitions的输入函数是应用于每个分区。 假设一个rdd有10个元素,分成3个分区。如果使用map方法,map中的输入函数会被调用10次;而使用mapPartitions方法的话,其输入函数会只会被调...转载 2018-08-30 17:35:01 · 580 阅读 · 0 评论