hadoop
graphnj
这个作者很懒,什么都没留下…
展开
-
Spark入门2-了解RDD
朱金华 njzhujinhua 2017/12/05简介1 特性RDD编程模型1 编程模型2 RDD的操作源码实现1 RDD朱金华 njzhujinhua 2017/12/051. 简介在RDD诞生之前的分布式计算框架缺乏对分布式内存的抽象和支持,需要用到数据交换时都是要写到存储中去,RDD模型的产生动机也主要来源于两种主流的应用场景: * 迭代式算法:迭代式机器学习,图算法,K原创 2017-12-11 23:48:04 · 431 阅读 · 0 评论 -
Spark入门1-使用Spark-shell交互分析
Spark入门1-使用Spark-shell交互分析朱金华 njzhujinhua 2017/12/03Spark入门1-使用Spark-shell交互分析文件读取1 读取RDD方式2 读取Dataset方式查看文件1 查看内容2 WordCount本系列以Spark2.2.0版本为依据整理。第一节通过Spark交互式shell熟悉其计算过程。在2.0版本之前,Spark的主要编程接口原创 2017-12-04 07:45:55 · 5210 阅读 · 0 评论 -
Spark入门3-RDD的实现
njzhujinhua@2017/12/15RDD的实现1 作业调度2 内存管理3 cache persist 与checkpoint的关系cache与persistcachepersist与checkpoint1. RDD的实现1.1 作业调度当对RDD执行转换操作时,调度器根据RDD的血统Lineage构建若干调度阶段Stage组成的有向无环图DAG,每个Stage包含尽可能多的连续原创 2017-12-15 01:11:33 · 412 阅读 · 0 评论 -
Spark笔记4-编程模型map/repartitions等
njzhujinhua 2017-12-17《图解Spark-核心技术与案例实战》 - 郭景瞻5转换操作51 基础转换操作mapdistinctflatMapcoalescerepartitionmapPartitionsmapPartitionsWithIndex3.5.转换操作3.5.1 基础转换操作map/distinct/flatMapmap[U](f:(T)=>U):RDD[T]原创 2017-12-18 00:08:51 · 650 阅读 · 0 评论 -
Spark调优-参数及配置
参数调优1 资源类11 num-executors12 executor-memory13 executor-cores14 driver-memory15 sparkdefaultparallelism16 sparkstoragememoryFraction17 sparkshufflememoryFractiongetMaxExecutionMemorygetMaxSto原创 2018-01-10 23:51:30 · 15116 阅读 · 0 评论 -
Spark技术架构,概念及运行过程
Spark技术架构Spark的基本概念1 Application2 Job3 Stage和DAGSchedule4 Task和TaskSchedule5 BlockManager6 宽依赖与窄依赖运行过程1 Standalone2 yarn cluster1.Spark技术架构Spark分布式内存计算平台采用的是Master-Slave架构,集群中含有原创 2018-01-07 23:51:09 · 1474 阅读 · 0 评论 -
HBase基础知识
HBase是一个高可靠,高性能,面向列,可伸缩的分布式存储数据库,设计目标是用来解决关系型数据库在处理海量存储时的限制性。1 架构HBase是分布式系统,所以分布式系统中的Master与Slave/Worker时少不了的,在这里Master叫HMaster,Worker在这里叫HRegionServer。1.1 HRegionServerRegionServer是HBase原创 2018-01-17 23:29:43 · 601 阅读 · 0 评论 -
Jupyter与PySpark实现结合spark与python的notebook
Jupyter与PySpark实现结合spark与python的notebookJupyter与PySpark实现结合spark与python的notebookPySpark简介Jupyter配置PySpark简介Spark作为大数据计算平台具有很大优势,已成为业界共识。 其拥有一些强大的库: SparkSQL:提供SQL语句,进行结构化数据查询和大数据集的探...原创 2018-03-05 00:11:51 · 10337 阅读 · 0 评论 -
oozie调度阻塞问题
讲个前段时间遇到的问题,项目中用到的spark on yarn基于oozie进行应用的编排调度,oozie支持fork/join机制,就是可以在fork之后可以分出多个分支用于调度其他action,对我们来说就是调用多个spark应用。但遇到的现象是明明有很多内存空闲,可这些spark却全都是在Accept状态,不能被调度执行。要分析这个问题,得先从oozie的调度机制说起。oozie...原创 2018-07-01 09:44:56 · 3499 阅读 · 0 评论