Charles__D-CSDN博客

原创 01_Hadoop入门

Hadoop入门 1.Hadoop概述 1.1大数据概念大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据主要解决的问题：海量数据的存储和计算 1.2大数据特点 Volume （大量） Velocity （高速） Variety （多样） Value （低...

2020-04-08 18:47:32 110

MapJoin 1.作用：reduceJoin在进行数据连接时效率低，用mapJoin来提升数据连接的效率。在map端进行不同数据源的数据连接。 2.DistributeCache：若进行大数据与小数据的连接，可以将小数据文件复制到所有mapper上，进行map端的连接。在driver中共享cacheFile： job.addCacheFile(new URI("cacheFile")); ...

2020-04-08 13:43:23 282

原创 mapreduce连接_外连接、左外连接、右外连接

外连接、左外连接、右外连接本例实现问题2：外连接、左外连接、右外连接问题描述： 1、任意多个数据源的内连接输入有两个文件，一个名为factory的输入文件包含描述工厂名和其对应地址ID的表，另一个名为address的输入文件包含描述地址名和其ID的表格。请编写一个程序输出工厂名和其对应地址的名字。输入：输入有两个文件，第一个描述了工厂名和对应地址的ID，第二个输入文件描述了地址名和其I...

2019-06-14 17:48:26 432

原创 mapreduce连接_reduceJoin

ReduceJoin 作用：在reduce端进行多个数据源的连接。 map：处理来自不同文件的输入，将不同文件的连接字段作为key，其他字段作为value,输出到reduce. reduce：此时连接字段（key）相同的数据被分到同一个reduce中，进行字段合并即可. 本例使用reduceJoin实现问题1 问题描述： 1、任意多个数据源的内连接输入有两个文件，一个名为factory的输...

2019-06-13 20:27:10 284

原创 mapreduce排序_二次排序

二次排序Partitioner、SortComparator、GroupingComparator Partitioner：完成分区，重写getPartition()函数 SortComparator与GroupingComparator异同：相同：都要继承WritableComparator对象，构造函数关联bean对象，重写compare()方法. 不同：SortComparator完成的是...

2019-06-09 13:48:15 254

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Charles_D

原创 01_Hadoop入门

原创 mapreduce连接_mapJoin

原创 mapreduce连接_外连接、左外连接、右外连接

原创 mapreduce连接_reduceJoin

原创 mapreduce排序_二次排序

空空如也

空空如也