- 博客(3)
- 收藏
- 关注
原创 mapreduce的数据清洗具体过程???
对于这个问题 一般来说我们在使用mapreduce进行数据清洗的时候,只是用map端,因为数据的清洗一般 不会涉及到聚合的问题,所以我们经常是设置reduce的个数为0 我想这个问题,问的应该是mapreduce的运行过程吧(个人理解) mapreduce运行过程如下: mapreduce主要分为5个过程 input>>map>...
2018-11-16 17:20:48 3187 1
原创 spark运行模式
简单简述一下 spark有一个主节点master和从节点worker 而spark在运行在集群的时候,由driver来负责job的调度,Exexutor来运行task 因此,spark的部署模式通俗的讲便是driver的运行位置 主要由两个 1、client(本地) 2、cluster(集群) 而由于spark可以交由自带的standalone集群资源管理框架管理,也可以 交由ya...
2018-11-14 23:19:00 173
原创 Hbase架构
1、regions Hbase表按照 rowkey来水平划分region块。每一个region块包括start rowkey和end rowkey,region是由regionserver管理, regionserver把region块分配到集群的各个节点中,对数据提供读和写的功能。当一个region变的 太大的时候,它会分裂成两个子Region。 ps:一个regionserve...
2018-11-10 20:24:14 153
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人