脑坑-CSDN博客

原创 window下搭建spark遇见的坑

java的绝对安装路径不能有空格，windown中java的安装目录为：C:\Program Files\javaspark与java的版本对应，java1.8好像不支持spark1.6了

2019-10-23 11:37:49 138

原创 MapReduce执行流程

它大概是这样的：Map：当有个一个作业要跑的时候，Client从HDFS中将数据拿到，会进行对数据的切片，然后列出来一个切片清单。默认一个块对应一个切片，一个片对应一个Map，当然也可以调整。Map会一条一条的读取数据，将数据变成 K，V 格式进行输出，其实这里还有一个分区的概念，可以抽象的理解为 Map 输出 K，V，P ；输出完之后的数据并没有直接写入磁盘，而是将数据写到Buffer...

2019-10-17 19:57:51 181

原创 Linux脚本中使用 ‘管道’的坑

当你在脚本中定义一个变量，然后变量在管道的右边使用了，执行脚本的时候发现变量并没有改变。这是因为管道的左右会启动子进程运行，所以管道右边是触发另一个子进程去改变变量的值。当进程结束后，就会随着消失。...

2019-10-09 09:44:47 231

原创 SparkStreaming+kafka+hive的整合

这里是目录kafka安装kafkaKafka测试hive 安装SparkStreamingSparkStreaming+kafka+hive的代码kafkaKafka是个什么东西– kafka是一个高吞吐的分部式消息系统kafka的特点：– 解耦– 缓冲官网：https://kafka.apache.org/kafka集群有多个Broker服务器组成，每个类型的消息被定义为top...

2019-09-26 17:17:30 1327 2

这一yarn的原理图Client 首先向RM询问这个作业怎么跑，然后RM会为Client创建一个进程，会在集群中挑一台不忙的节点，创建App Mas(当有一个作业要跑，为这个作业而创建的一个活动的App Mas，它等于Jobtrack的调度模块，Jobtrack的资源管理被yarn弄走，)了，因为App Mas是调度的，所以他从Client中拿回切片清单，但是最终的map在那个节点运行，是Ap...

2019-09-11 11:46:18 198

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

gcyFrist的博客

原创 window下搭建spark遇见的坑

原创 MapReduce执行流程

原创 Linux脚本中使用 ‘管道’的坑

原创 SparkStreaming+kafka+hive的整合

原创 Yarn的运行原理

空空如也

空空如也