Spark高级算子系列
贾红平
本人喜欢技术,一致从事于大数据搜索推荐系统架构及其相关工作,最近几年开始熟悉人工智能和机器学习领域,擅长高可用高并发系统架构设计..技术的追求从没有停止过..
展开
-
spark 高级算子
本问主要通过java代码实现spark的高级算子功能1 aggregateBykey// aggregateByKey,分为三个参数// reduceByKey认为是aggregateByKey的简化版// aggregateByKey最重要的一点是,多提供了一个函数,Seq Function// 就是说自己可以控制如何对每个partition中的数据进行先聚合,类似于mapreduce中的,ma...原创 2018-04-15 15:23:09 · 839 阅读 · 0 评论 -
spark 二次排序
通过代码实现spark的二次排序1 实现二次排序接口ordered/** * 自定义的二次排序key * @author Administrator * */ public class SecondarySortKey implements Ordered<SecondarySortKey>, Serializable { private static final lo...原创 2018-04-15 15:06:31 · 250 阅读 · 0 评论