自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 01_Hadoop入门

Hadoop入门 1.Hadoop概述 1.1大数据概念 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据主要解决的问题:海量数据的存储和计算 1.2大数据特点 Volume (大量) Velocity (高速) Variety (多样) Value (低...

2020-04-08 18:47:32 110

原创 mapreduce连接_mapJoin

MapJoin 1.作用:reduceJoin在进行数据连接时效率低,用mapJoin来提升数据连接的效率。在map端进行不同数据源的数据连接。 2.DistributeCache: 若进行大数据与小数据的连接,可以将小数据文件复制到所有mapper上,进行map端的连接。在driver中共享cacheFile: job.addCacheFile(new URI("cacheFile")); ...

2020-04-08 13:43:23 282

原创 mapreduce连接_外连接、左外连接、右外连接

外连接、左外连接、右外连接 本例实现问题2:外连接、左外连接、右外连接 问题描述: 1、 任意多个数据源的内连接 输入有两个文件,一个名为factory的输入文件包含描述工厂名和其对应地址ID的表,另一个名为address的输入文件包含描述地址名和其ID的表格。请编写一个程序输出工厂名和其对应地址的名字。 输入:输入有两个文件,第一个描述了工厂名和对应地址的ID,第二个输入文件描述了地址名和其I...

2019-06-14 17:48:26 432

原创 mapreduce连接_reduceJoin

ReduceJoin 作用:在reduce端进行多个数据源的连接。 map: 处理来自不同文件的输入,将不同文件的连接字段作为key,其他字段作为value,输出到reduce. reduce:此时连接字段(key)相同的数据被分到同一个reduce中,进行字段合并即可. 本例使用reduceJoin实现问题1 问题描述: 1、 任意多个数据源的内连接 输入有两个文件,一个名为factory的输...

2019-06-13 20:27:10 284

原创 mapreduce排序_二次排序

二次排序Partitioner、SortComparator、GroupingComparator Partitioner:完成分区,重写getPartition()函数 SortComparator与GroupingComparator异同: 相同:都要继承WritableComparator对象,构造函数关联bean对象,重写compare()方法. 不同:SortComparator完成的是...

2019-06-09 13:48:15 254

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除