- 博客(16)
- 资源 (5)
- 问答 (1)
- 收藏
- 关注
原创 kerbrose集群中spark任务读写hbase
项目中遇到集群开启kerbrose,需要spark读写hbase,刚开始仅仅做如下配置来获取connectionval configuration = HBaseConfiguration.create...(设置kerbrose配置)UserGroupInformation.setConfiguration(configuration)UserGroupInformation.log...
2018-09-27 15:11:03 867 1
原创 spark sql demo
通过pojo构造table:package sparkSql;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.func
2017-03-02 15:41:13 660
原创 spark streaming demo
spark streaming:package sparkstreaming;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2;import org
2017-03-02 15:25:53 932
原创 spark rdd的iterator()计算实现以及checkpoint源码
checkpointCheckpoint() : 说明:数据存在本地。该函数会创建个二进制文件,存在checkpoint目录。不是action,不会马上执行,配合 sc.setCheckpointDir(“/data/checkpoint”)使用. 使用该函数之前先 persist ,否则该函数会重新计算 ?? 使用场景: 当下游 RDD 计算出错时,可以直接从 ch
2016-12-16 23:04:08 4155
原创 Spark相关流程示意图
从网上搜集一些spark Runjtime、Schedule、Shuffle、stage划分等的示意图。之前写的博客一直没放过图,看起来可能没那么直观,这里搜集些,方便理解也以备以后可能用到。spark schedule总图: hadoop mapreduce流程: 从图上可以看出hadoop mr每一次mr都要落盘。spark mr与hadoop mr落盘对比: spark Run
2016-12-11 15:01:10 652
原创 MapReduce--Shuffle过程
Shuffle正常意思是洗牌或弄乱.我们对Shuffle过程的期望: 1、完整地从map task端拉取数据到reduce 端。 2、在跨节点拉取数据时,尽可能地减少对带宽的不必要消耗。 3、减少磁盘IO对task执行的影响。shuffle过程简单描述: 每个map task都有一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时候需要将缓冲区的数据
2016-12-06 23:05:14 278
原创 Spark RDD操作函数说明
下面 (K,V)表Tuple2 , <>表rdd内元素类型TransformationmapPartitions语法: def mapPartitions[U: ClassTag]( f: Iterator[T] => Iterator[U], preservesPartitioning: Boolean = false): RDD[U] 说明: 参数 preservesPartitioning
2016-11-23 21:19:12 572
原创 spark配置详解
这些皆可在 spark-default.conf配置,或者部分可在 sparkconf().set设置应用程序属性属性名称 | 默认值 | 含义----------------------------------------------------------------------------------spark.app.name
2016-11-19 23:23:48 1798
原创 Spark中几种重要的结构类型
Stage:private[spark] abstract class Stage( val id: Int, //Stage的序号数值越大,优先级越高 val rdd: RDD[_], //归属于本Stage的最后一个rdd val numTasks: Int, //等于父RDD的输出Partition数目,该初始值来自 DAGScheduler.newO
2016-11-17 22:45:20 1552
原创 spark之stage转taskSet及task最佳位置计算
stage转taskSet及task最佳位置计算这部分源码在DAGScheduler.submitMissingTasks() 函数内摆上源码: /** Called when stage's parents are available and we can now do its task. */ private def submitMissingTasks(stage: Stage,
2016-11-16 23:08:39 1061
原创 Rdd成员变量Dependency介绍(类型及其如何被初始化)
rdd都继承自 class RDD,来看下它的主构造函数:abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, // 参数deps即该rdd的依赖s @transient private var deps: Seq[Dependency[_]] ) extends Serial
2016-11-13 11:40:36 553
原创 kafka server.properties配置
放置一份server.properties的配置在这,运行正常,客户端连接正常。中间出过客户端连接的毛病,后来莫名其妙的好了,貌似与改动hosts文件有关broker.id=0port=9092# 配为主机名也运行正常host.name=10.46.179.206num.network.threads=3num.io.threads=8socket.send.buffer.bytes=10240
2016-11-12 14:40:50 379
原创 HRegionServer无法启动,启动hbase后马上挂掉的问题
把这次解决这个问题的操作记录下来,虽然还未搞清楚缘由,下次有空把hbase源码看一看。自己搭建了个伪分布式的hbase环境,配置好hbase-env.sh、hbase-site.xml、regionservers后启动hbase,使用hbase shell能正常建表等操作。然而idea代码连接却一直日志显示在一处不再动,很久后才报连接异常。2016-11-12 10:24:35,646 INFO
2016-11-12 10:43:55 14648 1
原创 Spark 角色说明(Client 、Master、Worker、Driver、Executor)
Standalone模式下存在的角色Client :客户端进程,负责提交作业到Master。Master :Standalone模式中主控节点,负责接收Client提交的作业,管理Worker,并命令Worker启动Driver和Executor。Worker :Standalone模式中slave节点上的守护进程,负责管理本节点的资源,定期向Master汇报心跳,接收Master的命令,启动
2016-10-29 22:32:06 4303
原创 SparkSubmit 提交作业源码流程粗略概述(含application中 driver、client、 executor的创建)
SparkSubmit 提交程序源码流程及application中 driver、client、 executor的创建源码基于1.5.1版本大体流程说明: (后续作补充修改) 1、通过 sparkSubmit 命令提交执行SparkSubmit的main函数, 2、在SparkSubmit的main函数中调用 prepareSubmitEnvironment 方法,这个方法用于
2016-10-29 21:58:43 896
原创 eclipse黑色背景主题
eclipse默认的白色背景太刺眼,调成黑色比较舒适。一般背景和字体设置:window - General - Appearance (这里有设置主题)window - General - Appearance - Colors and Fonts 右边面板有颜色字体设置,可以选Basec - Text Font 设置代码字体大小(可以选11号字体)。window - Java -
2016-08-14 22:06:05 5369
线程里new的实例对象是在堆里还是栈内呢?
2016-07-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人