![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
一只考考拉
大数据开发工程师
展开
-
spark血统--宽窄依赖(史上最简单的解释)
Wide Dependencies (宽依赖):是指子RDD的分区依赖于父RDD的多个分区或所有分区(子rdd和父rdd的关系是一对多的关系)Narrow Dependencies(窄依赖):是指父RDD的每一个分区最多被一个子RDD的分区所用(一个子rdd和父rdd的关系理想情况下是一对一)...原创 2021-01-20 11:50:51 · 522 阅读 · 0 评论 -
Flink和spark之间的异同分析
spark pk flink Flink Spark 数据模型 数据流、事件(Event)的序列 弹性分布式数据集 RDD 延迟性 批是流的特例(win) 微批量处理 有状态的计算 ...原创 2019-11-19 10:19:14 · 588 阅读 · 2 评论 -
spark sql 的catalyst优化器
需求:根据datalog解析出各个表、列名、以及根据表的join次数评选出热点表排名实现解析:spark sql 的catalyst优化器过程解析:sparksql的执行经历了以下几个阶段1.parse(解析):简单的说就是将字符串分成一个个token,解析成语法树2.analyzer(分析者):将语法树转换成逻辑执行计划,Analyzer遍历整个语法树,对树上的节点进行数据类型和...原创 2019-11-18 16:49:40 · 461 阅读 · 0 评论 -
spark 加载第三方数据源
spark读取外部数据源1.spark读取外部json文件[hadoop@hadoop0001 bin]$ cd/$spark_home/bin[hadoop@hadoop0001 bin]$ ./spark-shell --master local[2] --jars ~/software/mysql-connector-java-5.1.27.jarscala> spark...原创 2019-06-13 10:46:45 · 394 阅读 · 0 评论 -
spark-core03
spark-shell(测试)和spark-submit(生产)main方法里面创建一个sparkContext就是driver端Application 应用程序 = 1 Driver进程 + N Executors进程Driver:Process, main()创建SparkContextclient:cluster:Executor:Process,执行task,task(线程)...原创 2019-03-06 23:21:08 · 96 阅读 · 0 评论 -
spark-core05序列化、
sequenceFilesc.sequenceFile[BytesWritable,String] (“hdfs://hadoop000:8020/user/hive/warehouse/”) key的类型建议用BytesWritable序列化(性能的重要角色)在hadoop里只要有Writable,包含两种序列化java serialization(性能不高,比较慢)会导致更...原创 2019-03-02 23:35:45 · 101 阅读 · 0 评论 -
spark性能优化(1)
Spark的性能调优实际上是由很多部分组成的,不是调节几个参数就可以立竿见影提升作业性能的。我们需要根据不同的业务场景以及数据情况,对Spark作业进行综合性的分析,然后进行多个方面的调节和优化,才能获得最佳性能避免创建重复的RDD通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个...原创 2019-02-25 09:52:05 · 113 阅读 · 0 评论 -
大数据需要注意的细节问题和调优问题
1.hive的存储类型 :parquet(列存储)、textFile、rcFile、orcFile2.大数据当中的两种压缩和存储类型,压缩耗费cpu,snappy用的最多:snappy、gzip、bzip2、LZO3.数据倾斜数据倾斜的原理很简单:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行 聚合或join等操作。此...原创 2019-02-15 10:55:39 · 1008 阅读 · 0 评论 -
spark-core(1)
spark:大数据处理引擎特性:速度快、高性能、有向环图、代码可以运行在很多地方生态栈spark运行在hadoop之上 spark on yarnstandalone ==spark 集群两种方式创建rdd1.集合val sparkConf = new SparkConf().setMaster("loval[2]").setAppName("SparkTest")val dat...原创 2019-02-14 21:26:41 · 110 阅读 · 0 评论 -
spark第二节
1.sparkTextFile读取本地文件的方式object Test01 { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[2]").setAppName("Test01") val sc = new SparkContext(sparkCon...原创 2019-01-16 23:17:36 · 126 阅读 · 0 评论 -
初始spark
spark简单了解RDD--abstract class extends Serializalble五大方法RDD–abstract class extends SerializalbleRDD是spark的基石1.弹性分布式数据集(分区,不可变)2.由几个分区来构成,几个partition就有几个分区3.函数作用于每个分区,对每个分片做计算3.和其他的rdd有一系列的依赖4.分区器...原创 2019-01-16 22:29:32 · 85 阅读 · 0 评论