Hadoop
BLUcoding
这个作者很懒,什么都没留下…
展开
-
Hadoop_MapReduce_Join示例
Hadoop_MapReduce_Join示例输入文件1:D:\data\join\emp.txt1001 1 zhangsan1002 2 lisi1003 3 tom1004 3 amy输入文件2:D:\data\join\dept.txt1 销售部2 运营部3 研发部EmpMapperpackage com.blu.join;import java.io.IOException;import org.apache.hadoop.io.IntWritable;im原创 2020-05-14 16:54:05 · 43335 阅读 · 0 评论 -
Hadoop_MapReduce_数据去重示例
Hadoop_MapReduce_数据去重示例:删除输入文件中的重复数据,重复的数据只保留一个输入文件1:D:\data\distinct\file1.txtzhangsan 500 450 janlisi 200 150 janjerry 200 150 febamy 200 150 feb输入文件2:D:\data\distinct\file2.txtzhangsan 500 450 janlisi 200 150 janjack 150 160 jantom 500 500 f原创 2020-05-13 16:46:44 · 119291 阅读 · 0 评论 -
Hadoop_MapReduce_topN示例
Hadoop_MapReduce_topN示例倒序输出测试数据中的5个最大的数字测试文件1:D:\data\topN\topN.txt3 9 3 7 5 6 2 854 5 101 1 611 0 2 82 5 90测试文件2:D:\data\topN\topN2.txt3 93 3 7 1004 5 1 6 101 80199TopNMapperpackage com.blu.topN;import java.io.IOException;import java.原创 2020-05-13 15:32:55 · 43350 阅读 · 0 评论 -
Hadoop_MapReduce_求最大值和最小值
Hadoop_MapReduce_求最大值和最小值原始数据:D:\data\nums.txt需求:找出最大和最小的数字3411015228hadoop5K621MaxMinpackage com.blu.maxmin;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableCompara原创 2020-05-12 19:09:34 · 43351 阅读 · 0 评论 -
Hadoop_数据清洗示例
Hadoop_数据清洗示例(去除空行、开头为空格的数据):原始数据:D:\data\testdata.txtzhangsan 500 450 janzhangsan 550 450 feb lisi 210 150 jan lisi 200 150 febzhangsan 400 150 marchzhangsan 600 500 april lisi 190 150 april 800 100 janBLU 2000 200 feblisi 110 10 may原创 2020-05-12 16:56:14 · 43029 阅读 · 0 评论 -
Hadoop_MapReduce_OutputFormat工作原理
Hadoop_MapReduce_OutputFormat工作原理OutputFormat 的作用:校验job中指定输出路径是否存在将结果写入输出文件OutputFormat是一个抽象类,有以下几个子类:DBOutputFormatFileOutputFormatFilterOutputFormatNullOutputFormatFileOutputFormat有以下几个...原创 2020-05-04 22:13:28 · 44528 阅读 · 0 评论 -
Hadoop_MapReduce_Shuffle工作原理
Hadoop_MapReduce_Shuffle工作原理Shuffle 是连接 Mapper 和 Reducer 之间的桥梁,Mapper的输出结果必须经过Shuffle环节才能传递给ReducerShuffle分为Map阶段的数据准备和Reducer阶段的数据拷贝。Shuffle核心机制:数据分区、排序、合并。在 mapTask 阶段,通过代码:context.write(key, iw...原创 2020-04-28 21:15:56 · 37170 阅读 · 0 评论 -
Hadoop_MapReduce_InputFormat工作原理
Hadoop_MapReduce工作原理六个阶段:Input 文件输入Splitting 分片MappingShufflingReducingFinal resultmapper的输入数据为KV对形式,每一个KV对都会调用map()方法,输出数据也是KV对形式。mapper从context中获得输入数据,将处理后的结果写入context中(context.write(text...原创 2020-04-26 18:08:34 · 44668 阅读 · 0 评论 -
Hadoop_MapReduce压缩案例
Hadoop_MapReduce压缩案例在map输出端压缩修改 Hadoop_WordCount单词统计 工程只需要修改 MyWordCount 的main方法即可:package com.blu.mywordcount;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;im...原创 2020-04-24 13:22:53 · 37646 阅读 · 0 评论 -
Hadoop压缩和解压缩文件
Hadoop压缩和解压缩文件修改Hadoop_WordCount单词统计工程创建CompressionTest类package com.blu.compress;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import org.apache.hadoop....原创 2020-04-24 12:41:41 · 42912 阅读 · 0 评论 -
Hadoop序列化
序列化概念序列化:将内存中的对象装换成字节序列,以便于持久化存储到磁盘中以及网络传输。反序列化:将收到的字节序列(或者其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。为什么要序列化?一般对象只存储在本地内存,允许本地进程调用。而在集群环境下,需要在不同的进程调用对象,这就需要将对象通过网络传输到另外的主机上。但对象无法直接通过网络传输,只有通过序列化处理之后才能通过网络传输...原创 2020-04-23 22:18:10 · 45427 阅读 · 0 评论 -
Hadoop_WordCount单词统计
Hadoop_WordCount单词统计创建hadoop02工程pom文件<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/...原创 2020-04-23 09:36:42 · 47669 阅读 · 0 评论 -
Hadoop_HDFS文件操作
Hadoop_HDFS文件操作新建hadoop_hdfs工程pom.xml:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/P...原创 2020-04-23 09:05:08 · 44555 阅读 · 0 评论