Spark
nszkadrgg
这个作者很懒,什么都没留下…
展开
-
Spark-SQL之DataFrame操作大全
Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。 本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成 Spark-SQL可以以其他RDD对象、parquet文件、json转载 2017-06-01 09:49:18 · 645 阅读 · 0 评论 -
基于CentOS6.4环境编译Spark-2.1.0源码
1 写在前面的话有些小伙伴可能会问:Spark官网不是已经提供了Spark针对不同版本的安装包了吗,我们为什么还需要对Spark源码进行编译呢?针对这个问题我们到Spark官网: spark.apache.org来看下,如下图所示 Spark官网的确是提供了一些Hadoop版本的Spark安装包,但是提供的这些是否能够满足我们的要求呢?答案肯定是否定的,根据本人近几年做Spark的开发经验,列出如...转载 2017-06-15 13:04:32 · 892 阅读 · 0 评论 -
spark参数调优
摘要 1.num-executors 2.executor-memory 3.executor-cores 4.driver-memory 5.spark.default.parallelism 6.spark.storage.memoryFraction 7.spark.shuffle.memoryFraction 8.total-executor转载 2017-12-17 14:32:58 · 270 阅读 · 0 评论 -
Spark数据倾斜调优
一、数据倾斜发生的原理原理:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话,就会发生数据倾斜。数据倾斜只会发生在shuffle过程中。常用的并且可能会触发shuffle操作的算子:distinct、groupByKey、reduceByKey、aggregateB...转载 2018-09-18 13:31:29 · 144 阅读 · 0 评论 -
spark2.3.2+Yarn+Carbondata Thrift Server 配置carbondata1.5
Carbondata简介ApacheCarbondata是一种新的融合存储解决方案,利用先进的列式存储,索引,压缩和编码技术提高查询效率。ApacheCarbondata中文文档地址: http://carbondata.iteblog.comApache Carbondata英文文档:http://carbondata.apache.org/GitHub源码地址...原创 2019-03-05 15:24:01 · 2363 阅读 · 6 评论 -
Spark中的Spark Shuffle详解
Shuffle简介Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下,reduce task需要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络资源消...转载 2019-04-24 20:49:57 · 329 阅读 · 0 评论 -
Spark中广播变量和累加器
一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。累机器相当于统筹大变量,常用于计数,统计。二、具体原理1、广播变量广播变量理解图注意事项1、能不能将一个RDD使用广播变量广播出去? 不能,因为RDD是不存储数据的。可以将RDD的结果广播出去。2、 ...转载 2019-04-24 20:57:37 · 275 阅读 · 0 评论