spark
fzh595408240
冰冻三尺,非一日之寒
展开
-
spark性能调优-配置调优
1.在spark-submit shell中主要参数为:--num-executors 3 \ 配置executor的数量--driver-memory 100m \ 配置driver的内存容量--executor-memory 100m \ 配置每个executor的内存大小--executor-cores 3 \ 配置每个executor的cpu执行数量2.调优增加executor的数...原创 2018-06-14 14:05:53 · 338 阅读 · 0 评论 -
spark 学习记录 二次Key排序的使用方法
目的是为了当key相同的时候,对value进行自定义排序//二次排序,具体实现步骤//第一步:按照Ordered和Serrializable接口实现自定义排序的Key按照需要排序的字段重写ordered的方法//第二步:将要进行二次排序的文件加载进来生成《key,value》类型的RDD将pairRDD转换成二次排序的bean,将原来的反转一次Maptopair("二次排序的bean",key)/...原创 2018-05-23 15:54:39 · 642 阅读 · 0 评论 -
spark 学习记录 rdd 转 dataframe 写入mysql的示例
spark在离线批处理或者实时计算中都可以将rdd转成dataframe进而通过简单的sql命令对数据进行操作,对于熟悉sql的人来说在转换和过滤过程很方便,甚至可以有更高层次的应用,比如在实时这一块,传入kafka的topic名称和sql语句,后台读取自己配置好的内容字段反射成一个class并利用出入的sql对实时数据进行计算,这种情况下不会spark streaming的人也都可以方便的享受到...转载 2018-05-23 14:33:31 · 1207 阅读 · 0 评论 -
spark 学习记录 -- Spark中foreachPartition和partitions.foreach的区别
foreachPartition 属于action运算操作,而mapPartitions是在Transformation中,所以是转化操作,此外在应用场景上区别是mapPartitions可以获取返回值,继续在返回RDD上做其他的操作,而foreachPartition因为没有返回值并且是action操作,所以使用它一般都是在程序末尾比如说要落地数据到存储系统中如mysql,es,或者hbase中...原创 2018-05-15 18:49:43 · 3952 阅读 · 0 评论 -
spark调优-并行度调优
一个spark任务为一个application一个job的划分为一个action操作触发一个job可以被分为多个stage,在一个lineage中,发生shuffle操作时会拆分一个stage,shuffle操作一般发生在以下的几个算子中,distinct、groupbykey、reduceByKey、aggregateByKey、join、cogroup、reparation等中。这其中也是最容...原创 2018-06-14 14:34:36 · 483 阅读 · 0 评论