![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
PanYu——BJ
懂些皮毛
展开
-
Storm
什么是实时(流式)计算?1)信息时效性的要求越来越高,随着时间的流逝,数据也在流逝2)目标是随着数据流的实时到达,实时处理3)采集:Kafka/Flume/Scribe/TimeTunnel/Chukwa 计算:Storm/Spark/Samza/S4/Puma/JStorm &n...原创 2019-01-18 11:18:10 · 126 阅读 · 0 评论 -
Driver 和 Worker 是不是在一台机器里面?
不一定。看模式:client:1.如果是client-windows:dirver在windows上执行2.如果是client-linux: driver在spark-submit脚本cluster:1.如果是cluster:Master决定哪台空闲在哪台上跑Master会让worker启动一个进程——DriverDriver启动后会向Master请求很多资源Master会根据需...原创 2019-01-22 14:15:32 · 270 阅读 · 0 评论 -
Spark_DAG
一个action算子一个job下面是一个job的划分:DAG(有向无环图):顾名思义:有方向而没有环路这里做了DAG优化 :就是不切分窄依赖 举例原创 2019-01-21 17:42:06 · 286 阅读 · 0 评论 -
Spark_调度流程
1> 将我们编写好的代码打成jar包,提交到集群上运行。2> 执行spark-submit脚本3> 调用sparkSubmit这个类的main方法,在main方法中通过反射的方式,创建我们自己spark作业的主类实例对象。然后调用main方法,开始执行我们自己写的代码。4> 开始初始化sparkContext对象,在初始化sparkContext对象时会创建两...原创 2019-01-21 17:20:48 · 174 阅读 · 0 评论 -
Spark_RDD的持久化
RDD的持久化方法:cache() 或者 persist()做实验:同一个160M文件进行计算它的行数:文件小的时候没有差距,文件大的时候差距很明显第一次计算两次(未持久化):时间差不多第二次计算两次(持久化):时间第一次长,第二次却很短这是因为第一次的时候进行持久化,而第二次的时候已经持久化过了直接计算就好了。两个方法默认都为(持久化到内存):其它的序列化方式:序列化的选...原创 2019-01-14 20:37:34 · 824 阅读 · 1 评论 -
spark的四大核心组件
       相对于第一代的大数据生态系统Hadoop中的MapReduce,Spark 无论是在性能还是在方案的统一性方面,都有着极大的优势。Spark框架包含了多个紧密集成的组件,如图4所示。位于底层的是Spark Core,其实现了Spark的作业调度、内存管理、容错、与存储系统交互等基本功能,并针对弹性分布式数据集提供了原创 2018-12-12 13:54:09 · 9875 阅读 · 0 评论 -
spark-streaming
==> DstreamDstream是sparkStreaming的数据模型,本质就是一连串不间断的RDD,但是它是一个时间段的RDD.这些时间段的RDD源源不断的连接在一起。这个时间可以自己设置,时间设置的越短,实时性越高,但是性能消耗也越大。==>spark streaming从kafka获取数据,有哪几种方式?有两种方式:1.通过receiver的方式,2,通过dir...原创 2018-12-11 14:21:59 · 146 阅读 · 0 评论 -
spark-sql
==>Spark-SQL前世今生1、Spark SQL的特点1)、支持多种数据源:Hive、RDD、Parquet、JSON、JDBC等。2)、多种性能优化技术:in-memory columnar storage、byte-code generation、cost model动态评估等。3)、组件扩展性:对于SQL的语法解析器、分析器以及优化器,用户都可以自己重新开发,并且动态扩展...原创 2018-12-11 13:53:12 · 201 阅读 · 0 评论 -
spark_core
==>spark是什么?a) 是一种通用的大数据计算框架b) Spark Core 离线计算Spark SQL 交互式查询Spark Streaming 实时流式计算Spark MLlib 机器学习Spark GraphX 图计算c) 特点:i. 一站式:一个技术堆栈解决大数据领域的所有的计算问题ii. 基于内存d) Spark2009年诞生于伯克利大学的AMPLab实...原创 2018-12-11 13:48:41 · 305 阅读 · 0 评论 -
spark核心组件的核心
==>Spark Streaming 的核心:Dstream这个数据结构有三块比较重要:父依赖生成RDD的时间间隔一个生成RDD的functionDstream的概念: Discretized Stream是Spark Streaming的基础抽象,代表持续性的数据流和经过各种Spark算子操作后...原创 2018-12-12 14:28:57 · 591 阅读 · 0 评论