spark
Melo丶
Javaer
展开
-
【Python3实战Spark大数据分析及调度】第13章 项目实战
企业级大数据开发流程企业级大数据应用企业级大数据分析平台目的和分析获得数据价值离线和实时1)商业2)自研数据量预估及集群规划一条日志300~500字节,一天1000w访问量,一个人访问5次,每天访问5个页面DN:DataNode数量NN:NameNode数量RM:ResourceManager数量NM:NodeManager数量ZK:ZooKeeper数量GA...原创 2019-11-29 19:35:56 · 836 阅读 · 1 评论 -
【Python3实战Spark大数据分析及调度】第10 11章 Azkaban基础/实战篇
Azkaban 基础篇工作流概述:请假、借款JavaEE:jBPM、Activiti工作流调度系统的重要性crontab的问题和优势:对于定时调度能够很好的执行,但是对于依赖调度束手无策,只能够估计时间常用的调度框架:Azkaban LinkedIn开源Oozie apache开源Zeus 阿里开源Azkaban 概述:特点注意模块化和可插拔特性...原创 2019-11-29 13:33:34 · 318 阅读 · 0 评论 -
【Python3实战Spark大数据分析及调度】第9章 Spark Streaming
Spark Streaming 概述Spark Streaming 是Spark Core的扩展,能够水平扩展,高吞吐量,有容错机制的进行对实时数据进行流处理。能够对接Kafka(常用),Flume等中的数据处理的数据能够写到文件系统,数据库或者dashboard上因为Spark Streaming 是基于Spark Core 的,所以在Spark安装完成之后可以直接使用。Spark S...原创 2019-11-27 22:23:43 · 683 阅读 · 0 评论 -
【Python3实战Spark大数据分析及调度】第8章 Spark SQL
Spark SQL 前世今生Spark SQL是Spark上运行SQL的模块Hive on Spark是在Hive的基础上添加了Spark的执行引擎两者是不同的metastore,元数据,比如表的名字、表存在的位置、有哪些字段、顺序类型等等。存储在MySQL里面。好处是在Hive创建了表,Spark SQL可以访问,反之亦然,因为创建都是独立的。Spark SQL 概述Spark ...原创 2019-11-27 17:54:11 · 346 阅读 · 0 评论 -
【Python3实战Spark大数据分析及调度】第7章 Spark Core调优
History ServerSpark的UI界面端口默认4040,只能在Application运行的时候维持。修改参数使得spark保存运行日志和UI界面,端口改为18080位置改完之后的UI界面序列化序列化的作用:Shuffle的时候需要进行网络传输时,需要将数据序列化进行传输;节省内存的使用序列化的类型:- Java serialization:默认,能够运行实现了...原创 2019-11-26 16:54:05 · 238 阅读 · 0 评论 -
【Python3实战Spark大数据分析及调度】第6章 Spark Core进阶
第六章 Spark Core进阶原创 2019-11-26 15:06:57 · 325 阅读 · 0 评论 -
《Spark技术内幕》第八章Storage模块详解
Storage模块详解Storage模块负责管理Spark计算过程中产生的数据,包括基于Disk的和基于Memory的。用户在实际编程中,面对的是RDD,可以将RDD的数据通过cache持久化,持久化的动作都是由Storage模块完成的,包括Shuffle过程中的数据,也都是由Storage模块管理的。可以说RDD实现用户的逻辑,而Storage管理用户的数据。在Driver端和Execut...原创 2019-11-23 15:19:36 · 273 阅读 · 0 评论 -
《Spark技术内幕》第七章Shuffle模块详解
Shuffle模块详解Shuffle翻译成中文就是洗牌,之所以需要Shuffle,还是因为具有某种共同特征的一类数据需要最终汇聚(aggregate)到一个计算节点上进行计算。这些数据分布在各个存储节点上,并且由不同节点的计算单元处理。一般来说,每个Task处理的数据可以完全载入内存(如果不能,可以减小每个Partition的大小),因此Task可以做到在内存中计算。除非非常复杂的计算逻辑,...原创 2019-11-21 19:15:14 · 323 阅读 · 0 评论 -
《Spark技术内幕》第六章Executor模块详解
Executor模块详解Executor模块负责运行Task计算任务,并将结果会传到Driver。Spark支持多种资源调度框架,这些资源框架在为计算任务分配资源后,最终都会使用Executor模块完成最终的计算。每个Spark的Application都是从SparkContext开始的,他通过Cluster Manager和Worker上的Executor建立联系,由每个Executor完成...原创 2019-11-20 20:02:46 · 361 阅读 · 0 评论 -
《Spark技术内幕》第五章Deploy模块详解
Deploy模块详解Spark的Cluster Manager有以下几种部署模式:Standalone、Mesos、YARN、EC2、Local。Deploy模块是spark standalone的分布式框架,其采用master/slave架构。5.1Spark运行模式概述在SparkContext的创建过程中,会通过传入的Master URL的值来确定不同的运行模式,并且创建不同的Sch...原创 2019-11-20 18:09:28 · 310 阅读 · 1 评论 -
《Spark技术内幕》第四章Scheduler 模块详解
Scheduler 模块详解4.1 模块概述4.1.1 整体架构任务调度模块主要包含两大部分:1.DAGScheduler2.TaskScheduler他们负责将用户提交的计算任务按照DAG划分为不同的阶段并且将不同阶段的计算任务提交到集群进行最终的计算。整个过程用流程图表示(从上向下传递):RDD Objectsbuild operator DAG,将DAG传给DAGS...原创 2019-11-19 11:15:37 · 223 阅读 · 0 评论 -
【Python3实战Spark大数据分析及调度】第5章 Spark运行模式
第五章 Spark运行模式PySpark实战之运行模式官方submit文档:Submitting Applicationspyspark 与 spark-submit中的参数列表是一样的local模式下执行py脚本流程standalone下提交脚本流程yarn,不需要启动worker和masterstandalone需要启动worker和masterdeploy-m...原创 2019-11-14 22:27:21 · 186 阅读 · 0 评论 -
《Spark技术内幕》第三章RDD实现详解
第三章 RDD实现详解3.1 概述Spark的目标是为基于工作集的应用(即多个并行操作重用中间结果的应用)提供抽象,同时保持MapReduce及相关模型的优势特性。即自动容错、位置感知性和可伸缩性。RDD比数据流模型更容易编程,同时基于工作集的计算也具有良好的描述能力。在这些模型中最难实现的是容错性。一般来说,分布式数据集的容错性有两种:数据检查点和记录数据的更新。我们面对的是大规模...原创 2019-11-14 20:46:23 · 287 阅读 · 0 评论 -
【Python3实战Spark大数据分析及调度】第4章 Spark Core RDD编程
第4章 Spark Core RDD编程常用的Transformation算子sortByKeyuniondistinct结果就是partition中少了一个1,其他不变join,需要K-V类型的RDD普通的join就是inner join,得到两者都有的leftOuterJoin以左表为基准rightOuterJoin以右表为基准fullOuter...原创 2019-11-13 20:25:00 · 328 阅读 · 1 评论 -
【Python3实战Spark大数据分析及调度】第3章 Spark Core核心RDD
第3章 Spark Core核心RDD大部分截图来自于官网:http://spark.apache.org/docs/latest/rdd-programming-guide.htmlRDD源码:源码git地址RDD五大特性:1. A list of partitionsRDD是一个由多个partition(某个节点里的某一片连续的数据)组成的的list;将数据加载为RDD时,一般会...原创 2019-11-12 21:52:11 · 381 阅读 · 0 评论