Spark从入门到转行
文章平均质量分 76
wftt
这个作者很懒,什么都没留下…
展开
-
Spark JSONrdd和Dataframe的互相转换
背景在项目中,自定义数据采集以及为下游sink提供结构化的数据的需求,目前主要采用dataframe和JSON互相转换从而便于数据的分析。1、JSON字符串转dataframe首先需要了解json对应于dataframe的数据类型:json dataframe int long array array object struct 测试j...原创 2020-01-06 11:24:16 · 2797 阅读 · 0 评论 -
Spark core算子aggregateByKey实例
groupbykey、reducebykey以及aggregateByKeygroupbykey是全局聚合算子,将所有map task中的数据都拉取到shuffle中将key相同的数据进行聚合,它存在很多弊端,例如:将大量的数据进行网络传输,浪费大量的资源,最重要的是如果数据量太大还会出现GC和OutOfMemoryError的错误,如果数据某个key的数据量远大于其他key的数据,在进行全局...原创 2018-12-20 14:20:36 · 487 阅读 · 0 评论 -
Spark Core 和 Spark SQL 实现分组取Top N(基于scala)
分组取Top N在日常需求中很多见:每个班级分数前三名同学的名字以及分数 各省指标数量前三的市的名字等等需求,主要思想就是在某一个分区(班级,省)中取出该分区Top N的数据测试数据格式:如上图,字段含义为,班级,学生姓名,分数下面我们通过一个Demo来实现各班级分数前三的学生姓名以及分数1、通过Spark core 实现://读取测试数据保存为rdd...原创 2018-07-05 17:59:02 · 5957 阅读 · 0 评论