自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 mapreduce的数据清洗具体过程???

对于这个问题 一般来说我们在使用mapreduce进行数据清洗的时候,只是用map端,因为数据的清洗一般 不会涉及到聚合的问题,所以我们经常是设置reduce的个数为0 我想这个问题,问的应该是mapreduce的运行过程吧(个人理解) mapreduce运行过程如下:            mapreduce主要分为5个过程           input>>map&gt...

2018-11-16 17:20:48 3187 1

原创 spark运行模式

简单简述一下 spark有一个主节点master和从节点worker 而spark在运行在集群的时候,由driver来负责job的调度,Exexutor来运行task 因此,spark的部署模式通俗的讲便是driver的运行位置 主要由两个 1、client(本地) 2、cluster(集群) 而由于spark可以交由自带的standalone集群资源管理框架管理,也可以 交由ya...

2018-11-14 23:19:00 173

原创 Hbase架构

1、regions     Hbase表按照 rowkey来水平划分region块。每一个region块包括start rowkey和end rowkey,region是由regionserver管理, regionserver把region块分配到集群的各个节点中,对数据提供读和写的功能。当一个region变的 太大的时候,它会分裂成两个子Region。 ps:一个regionserve...

2018-11-10 20:24:14 153

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除