spark
文章平均质量分 99
VanasWang
这个作者很懒,什么都没留下…
展开
-
Spark核心 源码解析
文章目录核心1.Spark应用提交2.Spark内部组件及通信源码解析SparkSubmitApplicationMasterCoarseGrainedExecutorBackend通信3.Spark作业的提交(调度)4.任务的执行Shuffle核心所谓的内核,其实就是Spark的内部核心原理。1.Spark应用提交(1) Spark向Yarn提交(1) Spark向Yarn提交当使用bin/java执行java程序时,会产生JVM,java的进程(2) ApplicationMast原创 2020-07-21 08:56:40 · 670 阅读 · 0 评论 -
Spark Streaming 笔记
文章目录StreamingwordcountsocketTextStreamDStream创建queueStreamtextFileStream自定义数据采集器kafkaDStream转换transformupdateStateByKeyWindowOperationsreduceByKeyAndWindowDStream输出优雅的关闭getActiveOrCreate案例一:广告黑名summer.properties生成模拟数据:TApplicationEnvUtilTDaoMockDataApplica原创 2020-07-07 09:06:38 · 235 阅读 · 0 评论 -
SparkSql笔记
文章目录3种结构的关系自定义函数UDAF-弱类型UDAF-强类型SparkSQL通用的读取SparkSQL通用的保存CSVMySQL读数据写数据Hive本地hive操作hive外连接案例:造表 导入数据需求:各区域热门商品 Top33种结构的关系package com.vanas.bigdata.spark.sqlimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql原创 2020-07-02 14:28:39 · 228 阅读 · 0 评论 -
Spark Core笔记
文章目录Spark环境wordcount本地Standalone修改配置文件 关联日志 HA配置历史服务器yarnmac本地模式Spark架构RDDRDD的核心属性RDD创建从集合(内存)中创建RDD从外部存储(文件)创建RDDRDD并行度与分区File的分区RDD转换算子单value型mapmapPartitionsmapPartitionsWithIndexflatmapglomgroupByfiltersampledistinctcoalescerepartitionsortBypipe双Value类原创 2020-06-28 14:02:43 · 500 阅读 · 0 评论