spark
字母的艺术
make it happen !
展开
-
spark 性能调优之shuffle
目录1、shuffle block file 合并 2、提高缓存数值 3、延迟失败次数,提高失败重试次数 4、提高reduce 端内存占比1、shuffle block file 合并new SparkConf().set("spark.shuffle.consolidateFiles", "true")spark.shuffle.consolidateFiles:是否开启sh...原创 2019-06-13 11:32:45 · 188 阅读 · 0 评论 -
Spark 之 作业调度(在yarn-client模式下动态资源调度)
目录1、静态资源调度 2、动态资源调度 3、配置 hadoop 中 yarn 相关文件 4、启动 spark 作业查看是否动态资源调度1、静态资源调度 当一个spark application运行在集群中时,会获取一批独立的executor进程专门为自己服务,比如运行task和存储数据。如果多个用户同时在使用一个集群,并且同时提交多个作业,那么根据cluster ma...原创 2019-07-28 18:21:36 · 823 阅读 · 0 评论 -
Spark2 的 Whole-stage Code Generation、Vectorization 技术 与Spark1 的 Volcano Iterator Model 技术 的对比分析
目录1、Spark1 的 Volcano Iterator Model 技术 2、Spark2 的 Whole-stage Code Generation、vectorization 技术 3、总结1、Spark1 的 Volcano Iterator Model 技术 Spark 1.x会使用一种最流行、最经典的查询求值策略,该策略主要基于 Volcano Iterat...原创 2019-08-01 21:03:03 · 671 阅读 · 0 评论 -
Spark2 之 新特性易用性、高性能、智能化
目录1、新特性之易用性 2、新特性之高性能 3、新特性之智能化1、新特性之易用性(1)在标准化SQL支持方面,引入了新的ANSI-SQL解析器,提供标准化SQL的解析功能,而且还提供了子查询的支持。Spark现在可以运行完整的99个TPC-DS查询,这就要求Spark包含大多数SQL 2003标准的特性。这么做的好处在于,SQL一直是大数据应用领域的一个最广泛接受的标准,比如说Had...原创 2019-08-01 20:27:20 · 424 阅读 · 0 评论 -
Spark 之 日志框架 Flume 和 Kafka 使用场景
目录1、Spark 结合 Flume 的使用场景 2、Spark 结合 Kafka 的使用场景1、Spark 结合 Flume 的使用场景 若实时数据流产出的频率不固定,比如有时候是一秒十万条,有时候是一小时一万条,可以选择将数据用nginx日志来表示,每隔一段时间将日志文件,放到flume监控的目录中,然后呢,spark streaming来计算。2、Spark 结合...原创 2019-07-17 18:14:08 · 512 阅读 · 0 评论 -
spark 之报错 System memory 202768384 must be at least 4.718592E8. Please use a larger heap size
目录1、问题:System memory 202768384 must be at least 4.718592E8. Please use a larger heap size 2、解决1、问题: System memory 202768384 must be at least 4.718592E8. Please use a larger heap size.2、解决...原创 2019-07-16 23:01:26 · 355 阅读 · 0 评论 -
spark 之 运维管理使用CURL RESTful 方式查看spark 中 applications、jobs、stages
目录1、软件安装 2、查看过程1、软件安装安装curl工具,来发送http请求:故使用 以下命令安装:yum install -y curl2、查看过程使用curl RESTful 方式查看 spark applications 、jobs、stages命令行输入:curl http://192.168.2.201:18080/api/v1/applicati...原创 2019-07-23 20:42:19 · 1422 阅读 · 0 评论 -
spark 之 运行报错:Failed to allocate a page (67108864 bytes), try again.
目录:1、问题:Failed to allocate a page (67108864 bytes), 2、解决1、问题WARN memory.TaskMemoryManager: Failed to allocate a page (67108864 bytes), try again.2、解决spark-submit shell 中 driver 和 executor 的...原创 2019-07-15 21:54:00 · 5796 阅读 · 0 评论 -
Spark 之 shuffle 相关的算子
目录1、repartition 类 2、byKey类 3、join类 4、使用建议1、repartition 类repartition类的操作:比如repartition、repartitionAndSortWithinPartitions、coalesce等。重分区: 一般会shuffle,因为需要在整个集群中,对之前所有的分区的数据进行随机、均匀地打乱,然后把数据放入下游新...原创 2019-07-11 11:09:33 · 418 阅读 · 0 评论 -
Spark 之 算子的闭包原理
目录1、何为闭包 2、原理分析 3、spark 相关算子1、何为闭包 闭包跟在RDD的算子中操作作用域外部的变量有关,所谓RDD算子中,操作作用域外部的变量,指的是,类似下面的语句: val a = 0; rdd.foreach(i -> a += i)。此时,对rdd执行的foreach算子的作用域,其实仅仅是它的内部代码,但是这里却操作了作用域外部的a变量,根据...原创 2019-07-10 09:57:12 · 454 阅读 · 0 评论 -
Spark 之 yarn-client模式 与 yarn-cluster模式 对比分析
目录1、yarn-client 模式 2、yarn-cluster 模式 3、对比分析1、yarn-client 模式1、driver在本机启动 2、driver跟cluster manager申请资源,yarn-client,ResourceManager 3、RM分配一个container资源,在一个NM上,启动AM(ExecutorLauncher) 4、AM会找RM...原创 2019-07-08 19:09:34 · 874 阅读 · 0 评论 -
Spark 之 standalone 模式多个application(作业)资源调度
目录1、默认情况 2、修改配置1、默认情况 standalone集群对于同时提交上来的多个作业,仅仅支持FIFO调度策略,也就是先入先出;默认情况下,集群对多个作业同时执行的支持是不好的,没有办法同时执行多个作业;因为先提交上来的每一个作业都会尝试使用集群中所有可用的cpu资源,此时相当于就是只能支持作业串行起来,一个一个运行了。2、修改配置 我们希望能够...原创 2019-07-08 11:13:14 · 1216 阅读 · 0 评论 -
Spark Streaming 架构原理分析
目录:1、StreamingContext 2、ReceiveTracker 组件 3、DStreamGraph组件 4、JobGenerator 组件 5、JobScheduler 组件1、StreamingContext streamingContext 是 spark steaming 程序入口,类似 spark core 程序 创建 sparkContext。...原创 2019-06-23 22:35:20 · 486 阅读 · 0 评论 -
Spark 之 BlockManager 原理分析
目录:1、BlockManagerMaster 2、BlockManager 3、MemoryStore 4、DiskStore 5、ConnectionManager 6、BlockManagerWoker 7、四个组件关系(总结)1、BlockManagerMaster1.1 存在位置:Driver 中的 DAGscheduler上;1.2 功能:BlockM...原创 2019-06-26 18:16:14 · 269 阅读 · 0 评论 -
Spark 之 Task 原理分析
目录1、接收请求,准备操作 2、处理阶段 ShuffleMapTask 3、处理阶段 ResultTask1、接收请求,准备操作Executor 接收到了LaunchTask的请求后,在TaskRunner中会做一些准备工作,例如:反序列化Task,因为Task发送过来时,是被序列化的。然后通过网络拉取需要的文件,jar包等。在准备工作之后,运行task的run()方法,该方法最核心...原创 2019-06-26 14:28:40 · 581 阅读 · 0 评论 -
spark 内核架构分析
目录1、sparkcontext 2、TaskScheduler 组件 3、DAGScheduler组件1、sparkcontext spark-submit,这个shell 脚本会有自己编写的spark程序 Application,以及相关要求资源信息。由于基于Standalone模式,其会根据反射的方式,创建和构造一个Driver 进程。 Driver 进程...原创 2019-06-11 22:47:58 · 159 阅读 · 0 评论 -
spark2 之 交互式用户行为分析
目录1、离线式行为分析 2、交互式行为分析 3、DataSet 案例实战1、离线式行为分析每天凌晨对昨天的数据进行批量处理和分析,统计出各种指标和报表,放入MySQL等关系型数据库中。第二天就可以看到昨天以及昨天以前的数据分析结果。2、交互式行为分析用户在需要的时候,选择对应的查询和分析条件,然后由我们的系统立即运行一个大数据处理分析作业,在最短的时间内给用户提供他们想要的数...原创 2019-08-08 23:18:34 · 342 阅读 · 0 评论