自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (5)
  • 问答 (1)
  • 收藏
  • 关注

原创 kerbrose集群中spark任务读写hbase

项目中遇到集群开启kerbrose,需要spark读写hbase,刚开始仅仅做如下配置来获取connectionval configuration = HBaseConfiguration.create...(设置kerbrose配置)UserGroupInformation.setConfiguration(configuration)UserGroupInformation.log...

2018-09-27 15:11:03 855 1

原创 spark sql demo

通过pojo构造table:package sparkSql;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.func

2017-03-02 15:41:13 651

原创 spark streaming demo

spark streaming:package sparkstreaming;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2;import org

2017-03-02 15:25:53 924

原创 spark rdd的iterator()计算实现以及checkpoint源码

checkpointCheckpoint() : 说明:数据存在本地。该函数会创建个二进制文件,存在checkpoint目录。不是action,不会马上执行,配合 sc.setCheckpointDir(“/data/checkpoint”)使用. 使用该函数之前先 persist ,否则该函数会重新计算 ?? 使用场景: 当下游 RDD 计算出错时,可以直接从 ch

2016-12-16 23:04:08 4130

原创 Spark相关流程示意图

从网上搜集一些spark Runjtime、Schedule、Shuffle、stage划分等的示意图。之前写的博客一直没放过图,看起来可能没那么直观,这里搜集些,方便理解也以备以后可能用到。spark schedule总图: hadoop mapreduce流程: 从图上可以看出hadoop mr每一次mr都要落盘。spark mr与hadoop mr落盘对比: spark Run

2016-12-11 15:01:10 641

原创 MapReduce--Shuffle过程

Shuffle正常意思是洗牌或弄乱.我们对Shuffle过程的期望: 1、完整地从map task端拉取数据到reduce 端。 2、在跨节点拉取数据时,尽可能地减少对带宽的不必要消耗。 3、减少磁盘IO对task执行的影响。shuffle过程简单描述: 每个map task都有一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时候需要将缓冲区的数据

2016-12-06 23:05:14 271

原创 Spark RDD操作函数说明

下面 (K,V)表Tuple2 , <>表rdd内元素类型TransformationmapPartitions语法: def mapPartitions[U: ClassTag]( f: Iterator[T] => Iterator[U], preservesPartitioning: Boolean = false): RDD[U] 说明: 参数 preservesPartitioning

2016-11-23 21:19:12 563

原创 spark配置详解

这些皆可在 spark-default.conf配置,或者部分可在 sparkconf().set设置应用程序属性属性名称 | 默认值 | 含义----------------------------------------------------------------------------------spark.app.name

2016-11-19 23:23:48 1757

原创 Spark中几种重要的结构类型

Stage:private[spark] abstract class Stage( val id: Int, //Stage的序号数值越大,优先级越高 val rdd: RDD[_], //归属于本Stage的最后一个rdd val numTasks: Int, //等于父RDD的输出Partition数目,该初始值来自 DAGScheduler.newO

2016-11-17 22:45:20 1541

原创 spark之stage转taskSet及task最佳位置计算

stage转taskSet及task最佳位置计算这部分源码在DAGScheduler.submitMissingTasks() 函数内摆上源码: /** Called when stage's parents are available and we can now do its task. */ private def submitMissingTasks(stage: Stage,

2016-11-16 23:08:39 1048

原创 Rdd成员变量Dependency介绍(类型及其如何被初始化)

rdd都继承自 class RDD,来看下它的主构造函数:abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, // 参数deps即该rdd的依赖s @transient private var deps: Seq[Dependency[_]] ) extends Serial

2016-11-13 11:40:36 544

原创 kafka server.properties配置

放置一份server.properties的配置在这,运行正常,客户端连接正常。中间出过客户端连接的毛病,后来莫名其妙的好了,貌似与改动hosts文件有关broker.id=0port=9092# 配为主机名也运行正常host.name=10.46.179.206num.network.threads=3num.io.threads=8socket.send.buffer.bytes=10240

2016-11-12 14:40:50 365

原创 HRegionServer无法启动,启动hbase后马上挂掉的问题

把这次解决这个问题的操作记录下来,虽然还未搞清楚缘由,下次有空把hbase源码看一看。自己搭建了个伪分布式的hbase环境,配置好hbase-env.sh、hbase-site.xml、regionservers后启动hbase,使用hbase shell能正常建表等操作。然而idea代码连接却一直日志显示在一处不再动,很久后才报连接异常。2016-11-12 10:24:35,646 INFO

2016-11-12 10:43:55 14632 1

原创 Spark 角色说明(Client 、Master、Worker、Driver、Executor)

Standalone模式下存在的角色Client :客户端进程,负责提交作业到Master。Master :Standalone模式中主控节点,负责接收Client提交的作业,管理Worker,并命令Worker启动Driver和Executor。Worker :Standalone模式中slave节点上的守护进程,负责管理本节点的资源,定期向Master汇报心跳,接收Master的命令,启动

2016-10-29 22:32:06 4246

原创 SparkSubmit 提交作业源码流程粗略概述(含application中 driver、client、 executor的创建)

SparkSubmit 提交程序源码流程及application中 driver、client、 executor的创建源码基于1.5.1版本大体流程说明: (后续作补充修改) 1、通过 sparkSubmit 命令提交执行SparkSubmit的main函数, 2、在SparkSubmit的main函数中调用 prepareSubmitEnvironment 方法,这个方法用于

2016-10-29 21:58:43 886

原创 eclipse黑色背景主题

eclipse默认的白色背景太刺眼,调成黑色比较舒适。一般背景和字体设置:window - General - Appearance (这里有设置主题)window - General - Appearance - Colors and Fonts 右边面板有颜色字体设置,可以选Basec - Text Font 设置代码字体大小(可以选11号字体)。window - Java -

2016-08-14 22:06:05 5324

谷歌护眼插件-绿色护航

谷歌护眼插件-绿色护航。

2016-12-10

spark配置默认值及其解释说明

spark配置

2016-11-20

火狐浏览器stylist插件全局护眼灰色背景样式

火狐浏览器stylist插件中一款护眼的灰色样式,需要火狐浏览器安装stylist插件

2016-11-13

中考物理真题(电能,电功率)

中考物理真题(电能,电功率),电能、电功率章节真题200题精选汇编。

2013-03-18

采用激光共振光声光谱技术检测乙炔气体

采用激光共振光声光谱技术检测乙炔气体,pdf文件。09年发表

2013-03-18

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除