Spark
jiezou12138
这个作者很懒,什么都没留下…
展开
-
Spark生态圈概述以及Hadoop生态圈的比较
目录1.Spark概述及特点2.Spark产生背景3.Spark与Hadoop的对比4.Spark与Hadoop的协作性1.Spark概述及特点先看下官网的描述:http://spark.apache.org/Spark定义:spark是基于内存的,分布式的大数据计算引擎。有以下特点:SpeedRun workloads 100x faster....转载 2019-03-29 20:16:20 · 995 阅读 · 0 评论 -
spark学习(五):shuffle以及内存管理机制
目录1. shuffle详解1.1 那么到底什么时shufffle?reduceByKey的含义?问题:如何聚合?1.2 Shuffle分为shuffle和sortShuffle1.2.1 shuffle普通机制1.2.2 shuffle合并机制1.2.3 SortShuffle普通运行机制1.3 shuffle文件寻址1.4shuffle调优2....原创 2019-04-02 23:12:23 · 752 阅读 · 0 评论 -
spark学习(四):共享变量及一些优化
目录1.Spark中的共享变量1.1 广播变量1.2 累计器2. Spark WEBUI3. 搭建HistoryServer4.Master HA1.Spark中的共享变量在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上,并且...原创 2019-04-02 18:15:31 · 248 阅读 · 0 评论 -
调整spark-sql控制台日志输出级别
问题:每次spark-sql操作都会打印大量的INFO信息,这样我们查看结果就会很麻烦,解决:调整Spark日志级别的配置文件是在$SPARK_HOME/conf/目录下的log4j.properties.template,默认级别是INFO将log4j.properties.template复制一份cp log4j.properties.template log4j.pro...原创 2019-03-28 20:06:32 · 4992 阅读 · 0 评论 -
Spark学习(三):spark 的任务提交方式
目录1. Standalone模式两种提交任务方式1.1 Standalone-client提交任务方式1.2 Standalone-cluster提交任务方式1.3 Driver的功能2. yarn模式两种提交任务方式2.1 yarn-client提交任务方式2.2 Standalone-cluster提交任务方式2.3 Application功能3. 术语解...原创 2019-04-01 16:28:43 · 518 阅读 · 0 评论 -
Spark学习(七):SparkStreaming
目录1 什么是SparkStreaming1.1 SparkStreaming简介、1.2 SparkStreaming与Storm的区别2 SparkStreaming初始2.1 官方自带的WordCount程序2.2 IDEA编程2.3StreamingContext的cores配置2.4 DStream中的transformation和action算子...原创 2019-04-06 15:52:20 · 424 阅读 · 0 评论 -
Spark学习(二):RDD详解
目录1.RDD详解1.1RDD的创建1.2 transformation算子和action算子1.3 RDD的宽依赖和窄依赖2. Stage2.1DAG的生成2.2stage1.RDD详解RDD的概念,注意事项已经在Spark的总体概述中说过,就不再提了,可以自行查看https://blog.csdn.net/jiezou12138/article/deta...原创 2019-04-01 11:20:26 · 346 阅读 · 0 评论 -
Spark学习(六):Spark SQL二
目录4.数据的read、write和savemode4.1 数据的读取4.2 数据的写出4.3 数据保存的模式5. Spark SQL数据源5.1数据源之json5.2 数据源之parquet5.3 数据源之csv5.4 数据源之JDBC5.5 数据源之hive4.数据的read、write和savemode4.1 数据的读取一些常见的数据源...原创 2019-04-04 23:40:19 · 280 阅读 · 0 评论 -
spark学习(一):集群的搭建
目录1.下载2.上传3.解压4.修改配置文件5.启动spark集群6.Spark的四种部署模式7.如何去提交spark任务8.Spark的第一个程序9.Spark编程(WordCount)Spark集群的配置:准备三台有hdfs集群的节点hadoop101 master和workerhadoop102 workerhadoop103 work...原创 2019-03-31 17:52:30 · 314 阅读 · 0 评论 -
Spark学习(六):Spark SQL一
目录1 Spark SQL1.1 Spark SQL是什么1.2 Spark的优点1.3 RDD vs DataFrame vs Dataset1.3.1 RDD1.3.2 DataFrame1.3.3 Dataset1.3.4 三者的共性1.3.5 三者的区别2 Spark SQL编程2.1 spark-shell编程2.2 IDEA创建Spark...原创 2019-04-04 22:05:59 · 412 阅读 · 0 评论 -
Spark学习总体概述
1.什么是Spark?与MR的区别? Spark是开源的通用的计算框架,目的是为了使数据分析更快。MR也是计算框架。 区别? 1).MR是基于磁盘迭代,Spark是基于内存迭代。 2).Spark中有DAG有向无环图。 3).MR中只有map,reduce两个类,相当于Spark中两个算...原创 2019-03-31 14:24:36 · 271 阅读 · 0 评论 -
Spark的Shuffle过程介绍
Shuffle WriterSpark丰富了任务类型,有些任务之间数据流转不需要通过Shuffle,但是有些任务之间还是需要通过Shuffle来传递数据,比如wide dependency的group by key。Spark中需要Shuffle输出的Map任务会为每个Reduce创建对应的bucket,Map产生的结果会根据设置的partitioner得到对应的bucketId,然后填充...转载 2019-06-06 16:41:39 · 227 阅读 · 0 评论