自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

FisherWang_CN

花正当春,人亦年少。

  • 博客(7)
  • 收藏
  • 关注

转载 hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by    Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。    这里跟传统的sql还有一点区别:如...

2018-04-26 18:42:36 286

原创 spark-driver 集群与driver节点 Python版本 不一致报错

1、环境说明:driver节点使用Python3.5,集群使用Python2.7。2、出现报错Exception: Python in worker has different version 2.7 than that in driver 3.5, PySpark cannot run with different minor versions.Please check environment ...

2018-04-26 18:24:38 2074

转载 Spark性能优化:数据倾斜调优

1、如何判断数据切斜的发生源头?根据stage划分原理和sparkUI2、数据倾斜解决方案解决方案一:使用Hive ETL预处理数据解决方案二:过滤少数导致倾斜的key解决方案三:提高shuffle操作的并行度解决方案四:两阶段聚合(局部聚合+全局聚合)方案适用场景:对RDD执行reduceByKey等聚合类shuffle算子或者在Spark SQL中使用group by语句进行分组聚合时,比较适...

2018-04-24 16:59:24 491

转载 Spark性能优化:资源调优篇

https://blog.csdn.net/u012102306/article/details/51637366

2018-04-24 16:14:47 132

转载 Spark性能优化:开发调优篇

spark调优分为几个方面:1、开发调优2、资源调优3、数据倾斜调优4、shuffle调优开发调优1、尽可能只读取一遍源数据2、进行持久化3、避免使用shuffle类算子例如,Broadcast与map进行join代码示例// 传统的join操作会导致shuffle操作。// 因为两个RDD中,相同的key都需要通过网络拉取到一个节点上,由一个task进行join操作。val rdd3 = r...

2018-04-24 15:53:35 256

原创 spark-sql学习——官网文档

综述spark-sql 是spark生态圈中操作结构化数据的一个模块。开始计算scala> val df = spark.read.json("/test/people.json")df: org.apache.spark.sql.DataFrame = [age: bigint, name: string] scala> df.show()+--...

2018-04-20 14:55:03 447

转载 spark学习系列——11 spark shuffle 过程

https://www.csdn.net/article/2014-05-19/2819831-TDW-Shuffle/1https://www.jianshu.com/p/98a1d67bc226

2018-04-13 14:49:58 180

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除