2018年04月_星辰学院

转载 hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的，会对查询的结果做一次全局排序，所以说，只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理（不管有多少map，也不管文件有多少的block只会启动一个reducer）。但是对于大量数据这将会消耗很长的时间去执行。这里跟传统的sql还有一点区别：如...

2018-04-26 18:42:36 286

原创 spark-driver 集群与driver节点 Python版本不一致报错

1、环境说明：driver节点使用Python3.5，集群使用Python2.7。2、出现报错Exception: Python in worker has different version 2.7 than that in driver 3.5, PySpark cannot run with different minor versions.Please check environment ...

2018-04-26 18:24:38 2074

转载 Spark性能优化：数据倾斜调优

1、如何判断数据切斜的发生源头？根据stage划分原理和sparkUI2、数据倾斜解决方案解决方案一：使用Hive ETL预处理数据解决方案二：过滤少数导致倾斜的key解决方案三：提高shuffle操作的并行度解决方案四：两阶段聚合（局部聚合+全局聚合）方案适用场景：对RDD执行reduceByKey等聚合类shuffle算子或者在Spark SQL中使用group by语句进行分组聚合时，比较适...

2018-04-24 16:59:24 491

转载 Spark性能优化：资源调优篇

https://blog.csdn.net/u012102306/article/details/51637366

2018-04-24 16:14:47 132

转载 Spark性能优化：开发调优篇

spark调优分为几个方面：1、开发调优2、资源调优3、数据倾斜调优4、shuffle调优开发调优1、尽可能只读取一遍源数据2、进行持久化3、避免使用shuffle类算子例如，Broadcast与map进行join代码示例// 传统的join操作会导致shuffle操作。// 因为两个RDD中，相同的key都需要通过网络拉取到一个节点上，由一个task进行join操作。val rdd3 = r...

2018-04-24 15:53:35 256

原创 spark-sql学习——官网文档

综述spark-sql 是spark生态圈中操作结构化数据的一个模块。开始计算scala> val df = spark.read.json("/test/people.json")df: org.apache.spark.sql.DataFrame = [age: bigint, name: string] scala> df.show()+--...

2018-04-20 14:55:03 447

转载 spark学习系列——11 spark shuffle 过程

https://www.csdn.net/article/2014-05-19/2819831-TDW-Shuffle/1https://www.jianshu.com/p/98a1d67bc226

2018-04-13 14:49:58 180

FisherWang_CN