Spark
Spark的操作
黄土高坡上的独孤前辈
010101010101010101010101010101
展开
-
JSONUtils
package com.zhihuishu.hbase.dim.common.phoenix;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson.JSONObject;import java.sql.ResultSet;import java.sql.ResultSetMetaData;import java.sql.SQLException;i原创 2020-12-16 12:21:20 · 269 阅读 · 1 评论 -
Spark重要类的源码解析汇总
文章目录1.RDD源码2.sparkContext源码3.MemoryStorage源码4.宽窄依赖源码5.累加器源码6.StoreageLevel 源码7.sparkSession是sparkSQL的入口类8.RDD与dataFram的相互转换8.1 dataFram(1.3 version提出)和dataSet(1.6 version提出)源码8.2 dataFram8.3 dataSet9.sparkSql中的一些特殊类9.1 === 等于是 三个等于号9.2 Dataset 类中有spark Sq原创 2020-11-24 15:29:10 · 703 阅读 · 0 评论 -
Spark任务提交总体流程源码解析
文章目录1.spark总体流程图2.使用WC案例 debug RDD->DAGScheduler->TaskScheduler2.1 源码方法调用链2.2 源码方法调用类功能解析2.3 重要方法debug图2.3.1 dagScheduler.runJob2.3.2 val waiter = submitJob2.3.3 eventProcessLoop.post2.3.4 dagScheduler.handleJobSubmitted2.3.4.1 stage的拆分原则:从后往前拆的2.3.4原创 2020-11-24 15:17:49 · 306 阅读 · 2 评论 -
SparkStreaming对接kafka的offest管理
官方文档参考# kafka offset管理http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html# exectly once语义实现的两种方式http://spark.apache.org/docs/latest/streaming-programming-guide.html#fault-tolerance-semantics原创 2020-11-22 16:38:25 · 86 阅读 · 0 评论 -
Spark的join算子是宽依赖吗?
1.案例概要 将product表和order表进行join,并找出订单金额最大的top3的产品. 结果 productName amount 小米7 550106959 小米6 275024061 小米5 549457182.数据结构与构造数据2.1 数据结构 case class Order(id:Int,date:String,pid:Int,amount:Int)case class Product原创 2020-09-11 15:20:02 · 257 阅读 · 0 评论 -
spark源码编译之集成cdh的hadoop版本
0.编译目标spark-2.4.5.tgz 集成hadoop-2.6.0-cdh5.16.2.tar1.下载指定版本源码https://archive.apache.org/dist/spark/后边四个就是四种格式的源码,余下的是安装包wget https://archive.apache.org/dist/spark/spark-2.4.5/spark-2.4.5.tgz2.准备maven jdk git编译环境Maven 3.5.4 or +Java 8scala 2.11.原创 2020-07-04 18:35:55 · 1260 阅读 · 0 评论