自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 window下搭建spark遇见的坑

java的绝对安装路径不能有空格,windown中java的安装目录为:C:\Program Files\javaspark与java的版本对应,java1.8好像不支持spark1.6了

2019-10-23 11:37:49 136

原创 MapReduce执行流程

它大概是这样的:Map: 当有个一个作业要跑的时候,Client从HDFS中将数据拿到,会进行对数据的切片,然后列出来一个切片清单。默认一个块对应一个切片,一个片对应一个Map,当然也可以调整。Map会一条一条的读取数据,将数据变成 K,V 格式进行输出,其实这里还有一个分区的概念,可以抽象的理解为 Map 输出 K,V,P ;输出完之后的数据并没有直接写入磁盘,而是将数据写到Buffer...

2019-10-17 19:57:51 179

原创 Linux脚本中使用 ‘管道’的坑

当你在脚本中定义一个变量,然后变量在管道的右边使用了,执行脚本的时候发现变量并没有改变。这是因为管道的左右会启动子进程运行,所以管道右边是触发另一个子进程去改变变量的值。当进程结束后,就会随着消失。...

2019-10-09 09:44:47 226

原创 SparkStreaming+kafka+hive的整合

这里是目录kafka安装kafkaKafka测试hive 安装SparkStreamingSparkStreaming+kafka+hive的代码kafkaKafka是个什么东西– kafka是一个高吞吐的分部式消息系统kafka的特点 :– 解耦– 缓冲官网:https://kafka.apache.org/kafka集群有多个Broker服务器组成,每个类型的消息被定义为top...

2019-09-26 17:17:30 1315 2

原创 Yarn的运行原理

这一yarn的原理图Client 首先向RM询问这个作业怎么跑,然后RM会为Client创建一个进程,会在集群中挑一台不忙的节点,创建App Mas(当有一个作业要跑,为这个作业而创建的一个活动的App Mas,它等于Jobtrack的调度模块,Jobtrack的资源管理被yarn弄走,)了,因为App Mas是调度的,所以他从Client中拿回切片清单,但是最终的map在那个节点运行,是Ap...

2019-09-11 11:46:18 198

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除