Spark
Movle
this is the way
展开
-
Spark是什么
目录1.什么是Spark2.为什么使用Spark3.Spark的特点4.Spark的体系架构5.Spark运行机制及原理分析1.什么是Spark? Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark St.原创 2020-05-17 21:35:03 · 2432 阅读 · 0 评论 -
Spark-安装配置:伪分布式安装和全分布式安装
0.准备工作:安装JDK,配置主机名,免密登陆一.伪分布模式搭建:1.解压tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz -C /opt/module2.修改配置文件:(1)修改spark-env.sh重命名(拷贝):cd /opt/module/spark-2.1.0-bin-hadoop2.7/confcp spark-env.sh.template spark-env.sh修改:vi spark-env.sh修改内容:export JA原创 2020-05-17 21:38:32 · 351 阅读 · 0 评论 -
Spark HA的实现
1.基于文件系统的单点恢复(注意:不能用于生产,主要用于开发和测试) 主要用于开发或测试环境。当spark提供目录保存spark Application和worker的注册信息,并将他们的恢复状态写入该目录中,这时,一旦Master发生故障,就可以通过重新启动Master进程(sbin/start-master.sh),恢复已运行的spark Application和worker的注册信息。 基于文件系统的单点.原创 2020-05-17 21:39:48 · 250 阅读 · 0 评论 -
Spark-core:执行Spark任务的两个工具:spark-submit与spark-shell
1.spark-submit:用于提交Spark任务(1)举例:spark 自带的实例程序。/opt/module/spark-2.1.0-bin-hadoop2.7/examples/jars中有Spark自带的实例程序。蒙特卡洛求PI(圆周率)cd /opt/module/spark-2.1.0-bin-hadoop2.7bin/spark-submit --master spark://hadoop1:7077 --class org.apache.spark.examples.Spark原创 2020-05-17 21:41:23 · 356 阅读 · 0 评论 -
Spark-core:Spark的算子
目录一.RDD基础 1.什么是RDD 2.RDD的属性 3.RDD的创建方式 4.RDD的类型 5.RDD的基本原理二.Transformation三.Action四.RDD的缓存机制五.RDD的Checkpoint(检查点)机制:容错机制六.RDD的依赖关.原创 2020-05-17 21:44:08 · 286 阅读 · 0 评论 -
Spark-core:Spark RDD的高级算子
目录 1.mapPartitionsWithIndex 2.aggrega 3.aggregateByKey:类似于aggregate操作,区别:操作的 的数据 4.coalesce与repartition 5.其他高级算子1.mapPartitionsWithI.原创 2020-05-17 21:48:56 · 219 阅读 · 0 评论 -
Spark Streaming:基础
目录 1.Spark Streaming简介 2.Spark Streaming的特点 3.Spark Streaming的内部结构1.Spark Streaming简介 Spark Streaming是核心Spark API的扩展,可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka,Flu.原创 2020-05-17 21:53:18 · 180 阅读 · 0 评论 -
Spark Streaming:进阶
目录 一.StreamingContext对象详解 二.离散流(DStreams):Discretized Streams 三.DStream中的转换操作(transformation) 四.窗口操作 五.输入DStreams和接收器  .原创 2020-05-17 21:52:54 · 430 阅读 · 0 评论 -
Spark Streaming:高级数据源
目录一.Spark Streaming接收Flume数据 1.基于Flume的Push模式 2.基于Custom Sink的Pull模式二.Spark Streaming接收Kafka数据 1.搭建ZooKeeper(Standalone): 2.搭建Kafka环境(单机单broker):  .原创 2020-05-17 21:57:29 · 290 阅读 · 0 评论 -
Spark Streaming:性能优化
目录 1.减少批数据的执行时间 2.设置正确的批容量 3.内存调优1.减少批数据的执行时间在Spark中有几个优化可以减少批处理的时间:(1)数据接收的并行水平 通过网络(如kafka,flume,socket等)接收数据需要这些数据反序列化并被保存到Spark中。如果数据接收成为系统的瓶颈,就要考虑并行地接.原创 2020-05-17 21:58:32 · 486 阅读 · 0 评论 -
Spark SQL:基础
目录一.Spark SQL简介二.Spark SQL的特点三.基本概念:表:Datasets和DataFrames 1.表 = 表结构 + 数据 2.DataFrame 3.Datasets四.创建DataFrames 1.第一种方式:使用case class样本类创建DataFrames &nb.原创 2020-05-17 22:13:29 · 510 阅读 · 0 评论 -
Spark SQL:使用数据源
目录一.通用的Load/Save函数 1.通用的Load/Save函数 2.显式指定文件格式:加载json格式 3.存储模式(Save Modes) 4.将结果保存为表二.Parquet文件(列式存储文件,是Spark SQL默认的数据源) 1.什么是parquet.原创 2020-05-17 22:17:15 · 262 阅读 · 0 评论 -
Spark SQL:性能优化
目录 1.在内存中缓存数据 2.性能优化相关参数1.在内存中缓存数据 性能调优主要是将数据放入内存中操作。通过spark.cacheTable(“tableName”)或者dataFrame.cache()。使用spark.uncacheTable(“tableName”)来从内存中去除table。Demo案例:(1)从Oracle数据库中读取数据,生成D.原创 2020-05-17 22:19:42 · 181 阅读 · 0 评论