2018年11月_寻寻尼尼

11月 10月 09月 08月 07月 06月 05月

原创 mapreduce的数据清洗具体过程？？？

对于这个问题一般来说我们在使用mapreduce进行数据清洗的时候，只是用map端，因为数据的清洗一般不会涉及到聚合的问题，所以我们经常是设置reduce的个数为0 我想这个问题，问的应该是mapreduce的运行过程吧（个人理解） mapreduce运行过程如下： mapreduce主要分为5个过程 input>>map&gt...

2018-11-16 17:20:48 3187 1

原创 spark运行模式

简单简述一下 spark有一个主节点master和从节点worker 而spark在运行在集群的时候，由driver来负责job的调度，Exexutor来运行task 因此，spark的部署模式通俗的讲便是driver的运行位置主要由两个 1、client（本地） 2、cluster（集群）而由于spark可以交由自带的standalone集群资源管理框架管理，也可以交由ya...

2018-11-14 23:19:00 173

原创 Hbase架构

1、regions Hbase表按照 rowkey来水平划分region块。每一个region块包括start rowkey和end rowkey，region是由regionserver管理， regionserver把region块分配到集群的各个节点中，对数据提供读和写的功能。当一个region变的太大的时候，它会分裂成两个子Region。 ps：一个regionserve...

2018-11-10 20:24:14 153

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人