spark
hy1568786
码中问道
展开
-
spark api submit
参考::Spark2.3(四十):如何使用java通过yarn api调度spark app,并根据appId监控任务,关闭任务,获取任务日志 - cctext - 博客园原创 2022-04-06 17:13:44 · 59 阅读 · 0 评论 -
画像用户扩展
参考:Lookalike 技术调研 - 简书转载 2022-02-10 10:43:19 · 117 阅读 · 0 评论 -
spark的透视表:pivot
参考:spark中的透视函数pivot - 尤灯塔 - 博客园转载 2022-01-27 11:03:42 · 375 阅读 · 0 评论 -
spark ML
参考:https://www.cnblogs.com/nxf-rabbit75/category/1572700.html?page=1转载 2021-09-09 14:42:42 · 73 阅读 · 0 评论 -
一个流和百亿级的表的join
以spark为例:分治 val kafkaManager = new KafkaManager(kafkaParams) val kafkaDirectStream = kafkaManager.createDirectStream[String, String, StringDecoder, StringDecoder](ssc,kafkaParams,topicSet) val res = kafkaDirectStream .filter(l => l._2.c...原创 2021-06-09 22:22:34 · 322 阅读 · 2 评论 -
task调优
task输入倾斜调优:https://www.jianshu.com/p/06a4b2f50940原创 2021-06-02 14:28:20 · 101 阅读 · 0 评论 -
spark数据倾斜
https://blog.csdn.net/kaede1209/article/details/81145560转载 2021-05-31 09:47:34 · 70 阅读 · 0 评论 -
hive对复杂数据结构的处理map,array,struct
参考blog:https://zhuanlan.zhihu.com/p/150361645转载 2021-04-30 16:01:23 · 159 阅读 · 1 评论 -
posexplode
hive的高级函数的使用 参考blog:https://www.cnblogs.com/-courage/p/14122106.html原创 2021-04-30 09:27:01 · 189 阅读 · 0 评论 -
spark的算子中定义一些需要的函数
参考:https://www.jianshu.com/p/780ae7c95bde转载 2021-03-04 14:20:30 · 124 阅读 · 1 评论 -
sparksql连接kafka
参考:https://www.cnblogs.com/yin-fei/p/10748505.html原创 2021-01-11 22:52:28 · 919 阅读 · 0 评论 -
spark的累加器
在学习这个点的时候,问自己几个问题:1.累加器有什么用2.典型的应用场景3.怎么用4.是否可以自定义https://www.cnblogs.com/itboys/p/11056758.html转载 2020-09-28 16:48:20 · 106 阅读 · 0 评论 -
spark读取的源+mysql+hive+jison+parquet+csv+hbase
连接这些数据源,请参考mysql+hive+jison+parquethttps://blog.csdn.net/qq_18603599/article/details/799518102.csvhttps://blog.csdn.net/fei_tian123/article/details/80624937?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~all~baidu_landing_v2~default-原创 2020-07-19 21:32:26 · 125 阅读 · 0 评论 -
spark的shuffle(hash shuffle and sort shuffle)
可以对比hadoop shuffle spark是对mapreduce的封装SparkShuffle:SparkShuffle概念reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value,然后生成一个新的RDD,元素类型是<key,value>对的形式,这样每一个key对应一个聚合起来的value。问题:聚合之前,每一个key对应的value不一定都是在一个partition中,也不太可能在同一个节点上,因为RDD是分布式的弹性...转载 2020-06-09 10:19:02 · 204 阅读 · 0 评论 -
图说spark工作原理
1.Cluster Manager在standalone模式中即为Master主节点,控制整个集群,监控worker。spark on yarnyarn 集群启动与客户端启动原创 2020-05-06 10:34:17 · 117 阅读 · 0 评论 -
spark的shuffle原理分析
spark的shuffle原理分析https://blog.csdn.net/zhanglh046/article/details/78360762图解shufflehttps://blog.csdn.net/zg_hover/article/details/73018918原创 2020-05-06 10:12:10 · 108 阅读 · 0 评论 -
spark核心原理
spark核心原理一 消息通信原理二 spark的作业原理三spark的调度策略(像极了yarn的均衡)一 消息通信原理spark消息通信架构 spark启动消息通信 spark运行时消息同喜spark消息通信架构spark启动消息通信(1)当Master启动后,随之启动各Worker, Worker启动时会创建通信环境RpcEnv和终端点E...原创 2019-12-16 17:25:27 · 1681 阅读 · 0 评论 -
spark中常用的32个算子
spark中常用的32个算子参考博客供需学习使用:https://blog.csdn.net/fortuna_i/article/details/81170565下篇:flink中常用的算子转载 2019-11-13 12:52:06 · 202 阅读 · 0 评论 -
hadoop之调度器yarn原理详细分析
1.client向yarn提交job,首先找ResourceManager分配资源,2.ResourceManager开启一个Container,在Container中运行一个Application manager3.Application manager找一台nodemanager启动Application master,计算任务所需的计算4.Application master向A...原创 2019-04-17 21:08:39 · 158 阅读 · 0 评论