
Spark
记录Spark
lightupworld
这个作者很懒,什么都没留下…
展开
-
Spark指南——第六章:Spark性能调优——高级篇(2)
Spark性能调优——高级篇(2)一、前言二、数据倾斜1.数据倾斜发生时的现象2.数据倾斜发生的原理3. 如何定位导致数据倾斜的代码①某个task执行特别慢的现象②某个task莫名其妙内存溢出的现象4.查看导致数据倾斜的key三、数据倾斜的解决方案1.解决方案一:使用Hive ETL预处理数据2.解决方案二:过滤少数导致倾斜的key3.解决方案三:提高shuffle操作的并行度4.解决方案四:两阶段聚合(局部聚合+全局聚合)5.解决方案五:将reduce join转为map join6.解决方案六:采样倾斜转载 2020-09-09 19:55:37 · 295 阅读 · 0 评论 -
Spark指南——第六章:Spark性能调优——基础篇(1)
Spark性能调优——基础篇一、前言二、调优概述三、开发调优1.原则一:避免创建重复的RDD2.原则二:尽可能复用同一个RDD3.原则三:对多次使用的RDD进行持久化4. 原则四:尽量避免使用shuffle类算子5.原则五:使用map-side预聚合的shuffle操作(算子)6.使用高性能的算子7.原则七:广播大变量8.原则八:使用Kryo优化序列化性能原则九:优化数据结构四、资源调优1.num-executors2.executor-memory3.executor-cores4.driver-memo转载 2020-09-09 16:41:52 · 676 阅读 · 0 评论 -
Spark指南——第五章:Spark内核解析(2)
第五章:Spark内核解密(2)一、Spark Shuffle二、内存管理一、Spark Shuffletodo二、内存管理转载 2020-09-07 19:23:51 · 233 阅读 · 0 评论 -
Spark指南——第五章:Spark内核解析(1)
第六章:Spark内核解密todo原创 2020-09-07 15:43:01 · 282 阅读 · 0 评论 -
Spark指南——第四章:SparkStreaming编程
SparkStreaming编程todo原创 2020-09-07 15:38:33 · 133 阅读 · 0 评论 -
Spark指南——第三章:SparkSQL编程——DataSet(3)
SparkSQL编程——DataSet(3)一、DataSet一、DataSettodo原创 2020-09-04 18:44:30 · 485 阅读 · 0 评论 -
Spark指南——第三章:SparkSQL编程—— DataFrame(2)
SparkSQL编程(1)一、SparkSession二、DataFrame1.创建DataFrame①通过数据源创建DataFrame②从RDD转换创建DataFrame1.方式一:Case Class方式2.方式二:createDataFrame方式③从Hive Table查询创建2.使用SQL风格编程① 对DataFrame创建一个临时表② 对创建的people表进行SQL查询3.使用DSL(Domain Specific Language)风格编程① 查看Schema② 指定列查询③ 限制条件查询④原创 2020-09-04 10:47:40 · 501 阅读 · 0 评论 -
Spark指南——第三章:SparkSQL概述(1)
SparkSQL概述(1)一、SparkSQL概述二、DataFrame三、Dataset:类型安全的结构化API四、DataFrame与 Dataset的比较一、SparkSQL概述我们知道Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,但是由于Hive基于MapReduce进行处理,在该过程中大量的中间磁盘落地过程消耗了大量的I/O,这大大降低了运行效率。所有Spark SQL的应运而生,它是将Spark SQL转换成R原创 2020-09-03 12:59:46 · 249 阅读 · 0 评论 -
Spark指南——第二章:SparkCore——RDD编程(2)
SparkCore——RDD编程(2)一、编程模型二、RDD编程三、创建RDD①并行集合创建RDD②外部存储创建RDD四、转换操作(transform)1.Vaule类型的转换操作① distinct② filter(func)③ map(func)④ flatMap(func)⑤ mapPartitions(func)⑥ mapPartitionsWithIndex(func)⑦ groupBy(func)⑧ coalesce、repartition⑨ sortBy(func,[ascending], [原创 2020-09-02 17:18:07 · 299 阅读 · 0 评论 -
Spark指南——第二章:SparkCore——RDD概述(1)
SparkCore——RDD概述(上)一、RDD概述二、RDD的属性1.RDD分区(Partitions)2.RDD分区计算函数3.RDD依赖关系(Dependencise)4.RDD 分区函数Partitioner5. RDD优先位置(Preferred Locations)三、RDD特点四、RDD的使用说明1.优先使用结构化API2.何时使用RDD五、RDD的弹性解读(扩展)1.自动进行内存和磁盘数据存储的切换2. 基于Lineage 血统 的高效容错机制3. Task如果失败,会自动进行特定次数的重试原创 2020-08-31 19:11:16 · 317 阅读 · 0 评论 -
Spark指南——第一章:Spark简介
Spark简介一、What is Spark二、Why Spark1.运行速度快2.易用性好3.通用性强4.随处运行三、Spark与MR比较注:Spark系列文章参考《Spark权威指南》、《图解Spark核心技术与案例实战》、《Spark大数据商业实战三部曲》,仅用于记录个人学习,侵权删。一、What is SparkSpark是加州大学伯克利分校AMP实验室(Algorithms、 Machines and People Lab)开发的 通用大数据处理框架。Spark生态系统也称为BDAS,是伯原创 2020-08-31 16:19:27 · 609 阅读 · 0 评论