![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
菜农1024
这个作者很懒,什么都没留下…
展开
-
Spark SQL小文件问题解决。
https://www.jianshu.com/p/ddd2382a738a转载 2021-12-31 16:25:54 · 190 阅读 · 0 评论 -
spark 分区 partition的理解
原文链接:https://www.cnblogs.com/jiangxiaoxian/p/9539760.html我们常认为coalesce不产生shuffle会比repartition 产生shuffle效率高,而实际情况往往要根据具体问题具体分析,coalesce效率不一定高,有时还有大坑,大家要慎用。coalesce 与 repartition 他们两个都是RDD的分区进行重新划分,repartition只是coalesce接口中shuffle为true的实现(假设源RDD有N个分区,需要重新划分转载 2021-06-05 21:21:08 · 324 阅读 · 0 评论 -
解决Spark在处理parquet文件时,默认将TimeStamp存为int96,出现二进制数据的情况
在创建spark对象时,配置config,即可原链接:https://www.thinbug.com/q/56582539转载 2021-05-31 11:55:50 · 589 阅读 · 0 评论 -
Spark实例创建及参数解释
def get_sparkSession(myApp): conf = (SparkConf().setMaster("yarn").setAppName(myApp) .set("spark.executor.memory", "2g") .set('hive.exec.dynamic.partition', 'true') .set('spark.sql.autoBroadcastJoinThreshold','-1')转载 2021-01-06 09:04:40 · 353 阅读 · 1 评论 -
Spark 概念阐述
1.概述(Master,Worker,Driver,Exector)1,master和worker节点搭建spark集群的时候我们就已经设置好了master节点和worker节点,一个集群有多个master节点和多个worker节点。master节点常驻master守护进程,负责管理worker节点,我们从master节点提交应用。worker节点常驻worker守护进程,与master节点通信,并且管理executor进程。PS:一台机器可以同时作为master和worker节点(举个例子:你有翻译 2020-12-24 08:50:37 · 151 阅读 · 0 评论