![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
Spark
大锤哥哥Z
这个作者很懒,什么都没留下…
展开
-
Spark调优-第二天
掌握数据倾斜调优了解shuffle 调优4.1 数据倾斜调优(60分钟)概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。原本能够正常执行的S.原创 2020-10-08 20:35:17 · 5917 阅读 · 0 评论 -
Spark调优-第一天
掌握Spark开发的十大原则掌握基于Spark内存模型调优带领学生熟悉Spark官网1. 十大开发原则(60分钟)1.1 避免创建重复的RDD通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,多个RDD会通过不同的算子操作(比如map、reduce等)串起来,这个“RDD串”,就是RDD lineage,也就是.原创 2020-10-08 20:29:08 · 5952 阅读 · 0 评论 -
深入浅出SparkSQL-第二章(进阶)
sparksql操作jdbc数据源sparksql保存数据操作sparksql整合hive1. jdbc数据源spark sql可以通过 JDBC 从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中1.1 通过sparksql加载mysql表中的数据添加mysql连接驱动jar包<dependency> <groupId>mysql</groupId> <.原创 2020-10-08 20:24:20 · 6046 阅读 · 1 评论 -
深入浅出SparkSQL-第一章(入门)
sparksql简介sparksql中DataFrame和DataSet的数据结构sparksql中DataFrame和DataSet的使用方式1.sparksql概述1.1 sparksql的前世今生Shark是专门针对于spark的构建大规模数据仓库系统的一个框架Shark与Hive兼容、同时也依赖于Spark版本Hivesql底层把sql解析成了mapreduce程序,Shark是把sql语句解析成了Spark任务随着性能优化的上限,以及集成SQL的一些复杂的分析功能,发现Hiv.原创 2020-10-08 20:19:52 · 5917 阅读 · 0 评论 -
深入浅出Spark-第四章
spark自定义分区spark中的共享变量spark程序的序列化问题spark中的application/job/stage/task之间的关系spark on yarn原理和机制spark的资源分配方式1. spark自定义分区1.1 自定义分区说明在对RDD数据进行分区时,默认使用的是HashPartitioner该函数对key进行哈希,然后对分区总数取模,取模结果相同的就会被分到同一个partition中HashPartitioner分区逻辑: key.hashcod.原创 2020-10-08 20:14:27 · 5978 阅读 · 0 评论 -
深入浅出spark-第二章(RDD算子)
1. RDD是什么RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合.Dataset: 就是一个集合,存储很多数据.Distributed:它内部的元素进行了分布式存储,方便于后期进行分布式计算.Resilient: 表示弹性,rdd的数据是可以保存在内存或者是磁盘中.2. RDD的五大属性(1)A list of partition原创 2020-10-08 20:05:54 · 5931 阅读 · 0 评论 -
深入浅出Spark-第一章(Spark简介)
1. spark是什么Apache Spark™ is a unified analytics engine for large-scale data processing.spark是针对于大规模数据处理的统一分析引擎 spark是在Hadoop基础上的改进,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce原创 2020-10-08 20:00:54 · 6106 阅读 · 0 评论