- 博客(5)
- 收藏
- 关注
原创 01_Hadoop入门
Hadoop入门 1.Hadoop概述 1.1大数据概念 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据主要解决的问题:海量数据的存储和计算 1.2大数据特点 Volume (大量) Velocity (高速) Variety (多样) Value (低...
2020-04-08 18:47:32
110
原创 mapreduce连接_mapJoin
MapJoin 1.作用:reduceJoin在进行数据连接时效率低,用mapJoin来提升数据连接的效率。在map端进行不同数据源的数据连接。 2.DistributeCache: 若进行大数据与小数据的连接,可以将小数据文件复制到所有mapper上,进行map端的连接。在driver中共享cacheFile: job.addCacheFile(new URI("cacheFile")); ...
2020-04-08 13:43:23
282
原创 mapreduce连接_外连接、左外连接、右外连接
外连接、左外连接、右外连接 本例实现问题2:外连接、左外连接、右外连接 问题描述: 1、 任意多个数据源的内连接 输入有两个文件,一个名为factory的输入文件包含描述工厂名和其对应地址ID的表,另一个名为address的输入文件包含描述地址名和其ID的表格。请编写一个程序输出工厂名和其对应地址的名字。 输入:输入有两个文件,第一个描述了工厂名和对应地址的ID,第二个输入文件描述了地址名和其I...
2019-06-14 17:48:26
432
原创 mapreduce连接_reduceJoin
ReduceJoin 作用:在reduce端进行多个数据源的连接。 map: 处理来自不同文件的输入,将不同文件的连接字段作为key,其他字段作为value,输出到reduce. reduce:此时连接字段(key)相同的数据被分到同一个reduce中,进行字段合并即可. 本例使用reduceJoin实现问题1 问题描述: 1、 任意多个数据源的内连接 输入有两个文件,一个名为factory的输...
2019-06-13 20:27:10
284
原创 mapreduce排序_二次排序
二次排序Partitioner、SortComparator、GroupingComparator Partitioner:完成分区,重写getPartition()函数 SortComparator与GroupingComparator异同: 相同:都要继承WritableComparator对象,构造函数关联bean对象,重写compare()方法. 不同:SortComparator完成的是...
2019-06-09 13:48:15
254
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人