![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
这里有个程序员儿
个人gzh 是bigdata_nice,欢迎一起学习
展开
-
【Spark】spark常用算子总结
一、Transformations转换算子 filter:过滤符合条件的记录数,true的保留、false的过滤 map:将RDD中的数据项,通过map中的函数映射变为一个新的元素(1进1出) mapPartition:执行结果与map相同,但是可以一次遍历整个patition mapPartitionWithIndex:类似于mapPartitions,除此之外还会携带分区的索引值 m...原创 2019-04-15 20:15:22 · 382 阅读 · 0 评论 -
【Spark】spark笔记
Spark粗略总结,后面会排版更新 1.spark简介 spark是一种专门为大规模数据处理而设计的 快速通用的计算引擎。 2.与mapreduce的对比 spark在计算过程中产生的中间输出结果是保存在内存中的 spark一般情况下比mapreduce快十倍,在迭代计算(机器学习中的逻辑回归)的时候可以快100倍 3.spark速度快的原因 (1)基于内存计算,也就是中间输出...原创 2019-04-12 21:13:22 · 328 阅读 · 0 评论 -
【Spark】spark执行模式
一、standalone模式 1.standalone下的client模式 ./spark-submit --master spark://node1:7077 --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.2.1.jar1000 或者 ./spark-submit -...原创 2019-04-14 16:23:35 · 172 阅读 · 0 评论 -
【Spark】spark shuffle
spark虽然是基于内存计算的,但是它也会产生shuffle 首先我们需要知道,Spark任务会根据RDD之间的依赖关系,形成一个DAG有向无环图,DAG会提交给DAGScheduler,DAGScheduler会把DAG划分相互依赖的多个stage,划分stage的依据就是RDD之间的宽窄依赖。遇到宽依赖就划分stage,每个stage包含一个或多个task任务。那我们可以想一下,如果上一个R...原创 2019-04-17 16:09:19 · 244 阅读 · 0 评论 -
【Spark】Spark SQL总结
一、SparkSQL介绍 Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。 1.spark sql的特点 1)引入了新的RDD类型SchemaRDD,可以像传统数据库定义表一样来定义SchemaRDD。 2)在应用程序中可以混合使用不同来源的数据,如可以将来自HiveQL的数据和来自SQL的数据进行Join操作。 ...原创 2019-04-18 22:22:40 · 289 阅读 · 0 评论 -
【Spark】spark streaming
一、简介 Spark Streaming是一种准实时的流式计算框架,它对数据处理的单位是一批而不是一条,在数累积到设置的时间间隔后,对数据进行统一的微批处理。这个时间间隔是Spark Streaming的核心概念和关键参数,直接决定了Spark Streaming作业的数据处理延迟,当然也决定了吞吐量和性能。实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TC...原创 2019-04-19 22:21:11 · 271 阅读 · 0 评论