![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
人生路且修且行
大数据开发,一起探讨一起进步吧
展开
-
spark读取嵌套json代码测试示例
示例一示例数据:{"name":"zhangsan","age":18,"scores":[{"yuwen":98,"shuxue":90,"yingyu":100},{"dili":98,"shengwu":78,"huaxue":100}]}{"name":"lisi","age":19,"scores":[{"yuwen":58,"shuxue":50,"yingyu":78},{"dili":56,"shengwu":76,"huaxue":13}]}{"name":"wangwu","ag原创 2021-05-12 22:50:20 · 389 阅读 · 0 评论 -
SparkSQL阿里技术下午茶
SparkSQL阿里技术下午茶Spark性能一、Catalyst 优化器层面Analyzer:解析一些SparkSQL不认识的节点、元素等,最终得到解析后的节点、元素Optimizer:优化,例如谓词下推,列裁剪、常量折叠等Planner:将逻辑执行计划转换成物理执行计划CoceGen:物理执行计划的代码优化,表达式功能 将上层产生的逻辑执行计划经过一些解析和相关规则的优化生成...原创 2020-03-17 11:12:34 · 196 阅读 · 0 评论 -
kafka简介和Streaming-kafka
大数据第40天-kafka简介和Streaming-kafka高吞吐的分布式消息系统,默认存储磁盘,默认保存7天 时间策略删除,kafka和很多消息系统不一样,很多消息系统是消费完了我就把它删掉,而kafka是根据时间策略删除,而不是消费完就删除,在kafka里面没有一个消费完这么个概念,只有过期这样一个概念特点和特点 系统之间解耦合 峰值压力缓冲 异步通信(消息队列) 生...原创 2019-07-27 20:10:38 · 351 阅读 · 0 评论 -
Spark-Master源码和Master-HA
大数据第36天-Spark-Master源码和Master-HA源码[外链图片转存失败(img-SHo1KLdQ-1563852302856)(C:\Users\86158\AppData\Roaming\Typora\typora-user-images\1563850613904.png)]总结1: Master(startRpcEnvAndEndpoint)的工作主要有2部分组成...原创 2019-07-23 11:26:39 · 180 阅读 · 0 评论 -
Spark算子代码汇总
大数据第35天-Spark算子代码汇总算子分类 Transformations转换算子延迟执行 需要Action算子触发才执行 Action行动算子,触发执行 控制算子 cache persist checkpointTransformations 延迟执行 需要Action算子触发才执行map- 1:1 取数据数据是一行flatMap-1:n 数据是多行...原创 2019-07-23 08:13:23 · 233 阅读 · 0 评论 -
SparkStreaming
大数据第39天-SparkStreaming一、SparkStreaming简介 SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map,reduce,join,win...原创 2019-07-26 21:03:53 · 356 阅读 · 0 评论 -
SparkSQL概述、6种不同数据格式创建DataFream方式、3种函数
大数据第38天-SparkSQL概述、6种不同数据格式创建DataFream方式一、SparkSQL简述1 SparkSQL产生Hive->Shark->SparkSQLShark Hive on Spark Hive即作为存储又负责sql的解析优化,Spark负责执行SparkSQL Spark on Hive Hive只作为储存角色,Spark负责sql解析优化,执行...原创 2019-07-25 17:39:03 · 932 阅读 · 0 评论 -
Spark-core scala的40多种常用算子汇总
大数据第34天-Spark40多种算子汇总本篇言简意赅,如有疑惑,请看前几篇相关算子的文章因为没法上传xmind格式,只能导入md上传本人不才,如有错,一起交流Transformation map 对RDD中的每一个元素都执行,前后元素的对应关系是1:1。也就是说,对一个元素执行RDD的操作,可以产生一个元素。 RDD使用map方法,有N个数据就加载了N次 ma...原创 2019-07-21 10:09:11 · 463 阅读 · 0 评论 -
Spark-java相关算子
大数据第33天-Spark-java相关算子练习Transformations算子package com.cs.java.spark;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;i...原创 2019-07-20 20:14:59 · 196 阅读 · 0 评论 -
Spark-stage、task发送、资源任务调度、算子
大数据第33天-Spark_task发送、资源任务调度、算子一、task发送[外链图片转存失败(img-jGSGLV6C-1563624850421)(C:\Users\86158\AppData\Roaming\Typora\typora-user-images\1563585716005.png)]Application -> job -> stage -> tasks...原创 2019-07-20 20:14:27 · 459 阅读 · 0 评论 -
Spark提交任务详解、宽窄依赖、算子
大数据第32天-Spark任务提交、算子、RDD宽窄依赖、stage一、任务提交Standalone提交在有压缩包的任意一个节点都可以提交无需配置Standalone-client1.命令将jar包导入spark的examples文件夹中,进入spark/bin,执行命令: ./spark-submit --master spark://node1:7077 --class 项目包...原创 2019-07-19 21:41:42 · 839 阅读 · 0 评论 -
Spark-Shuffle管理机制、内存管理、文件寻址、调优、源码
Spark-Shuffle-机制、内存、寻址、调优、源码一、SparkShuffle概念 reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value,然后生成一个新的RDD,元素类型是<key,value>对的形式,这样每一个key对应一个聚合起来的value注意: 数据在聚合之前RDD的partition可能存放在不同节点上(RDD是弹...原创 2019-07-24 10:21:05 · 355 阅读 · 0 评论 -
Spark广播变量、累加器、WebUI
大数据第37天-Spark广播变量、累加器、WebUI一、广播变量使用原因及优点 Driver提交N个task到Excutor,Excutor会产生N个存放task的内存,换句话说就是,发送多少个task,就携带多少个Driver端副本,为了解决这种问题,需要用到广播变量 当给Driver端的变量贴上broadcast标签后,Excutor会产生一个BlockManager来管理bro...原创 2019-07-24 10:14:00 · 305 阅读 · 0 评论 -
Spark、RDD、算子
大数据第31天-Spark、RDD、算子spark特点:速度快(基于内存处理数据,有相无关图),语言广一、Spark核心-RDD(弹性分布式数据)Rdd是逻辑概念,partition视具体执行操作RDD特性 1 RDD是由一系列partition组成 partition默认数量和block块数量一样 2 算子(函数)作用在RDD的partition上 3 RDD之间存在依...原创 2019-07-18 22:35:29 · 202 阅读 · 0 评论