- 博客(5)
- 收藏
- 关注
原创 window下搭建spark遇见的坑
java的绝对安装路径不能有空格,windown中java的安装目录为:C:\Program Files\javaspark与java的版本对应,java1.8好像不支持spark1.6了
2019-10-23 11:37:49 138
原创 MapReduce执行流程
它大概是这样的:Map: 当有个一个作业要跑的时候,Client从HDFS中将数据拿到,会进行对数据的切片,然后列出来一个切片清单。默认一个块对应一个切片,一个片对应一个Map,当然也可以调整。Map会一条一条的读取数据,将数据变成 K,V 格式进行输出,其实这里还有一个分区的概念,可以抽象的理解为 Map 输出 K,V,P ;输出完之后的数据并没有直接写入磁盘,而是将数据写到Buffer...
2019-10-17 19:57:51 181
原创 Linux脚本中使用 ‘管道’的坑
当你在脚本中定义一个变量,然后变量在管道的右边使用了,执行脚本的时候发现变量并没有改变。这是因为管道的左右会启动子进程运行,所以管道右边是触发另一个子进程去改变变量的值。当进程结束后,就会随着消失。...
2019-10-09 09:44:47 231
原创 SparkStreaming+kafka+hive的整合
这里是目录kafka安装kafkaKafka测试hive 安装SparkStreamingSparkStreaming+kafka+hive的代码kafkaKafka是个什么东西– kafka是一个高吞吐的分部式消息系统kafka的特点 :– 解耦– 缓冲官网:https://kafka.apache.org/kafka集群有多个Broker服务器组成,每个类型的消息被定义为top...
2019-09-26 17:17:30 1327 2
原创 Yarn的运行原理
这一yarn的原理图Client 首先向RM询问这个作业怎么跑,然后RM会为Client创建一个进程,会在集群中挑一台不忙的节点,创建App Mas(当有一个作业要跑,为这个作业而创建的一个活动的App Mas,它等于Jobtrack的调度模块,Jobtrack的资源管理被yarn弄走,)了,因为App Mas是调度的,所以他从Client中拿回切片清单,但是最终的map在那个节点运行,是Ap...
2019-09-11 11:46:18 198
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人