Hadoop进阶经典案例总结

Zbrpt

已于 2022-02-11 20:48:57 修改

阅读量1.9k

点赞数 1

文章标签： hadoop hdfs 大数据

于 2022-02-11 20:21:27 首次发布

本文链接：https://blog.csdn.net/chxlloli/article/details/122887921

版权

本文总结了Hadoop的进阶案例，包括利用HDFS文件student_score.txt进行自定义分组，将特定姓名的数据分到同一reduce中；讨论了白名单问题中的注意事项；并介绍了流式分组问题，针对已排序的文本文件finance_record_sorted.txt按工号进行分组处理，展示了解决方案的实际效果。

摘要由CSDN通过智能技术生成

一，以hdfs路径/tmp/table/student_score.txt为输入，表结构为（学号，姓名，课程名称，成绩），字段间分隔符为tab，如下图所示。通过设置reduce个数为2，自定义hash partition实现将其中姓名为"张一"的放到同一个reduce中，非张一的放到其它的reduce中，输出结果字段为（学号，姓名，课程名称，成绩），按tab分隔即可。

具体实现代码（java部分）：

package com.hadoop.mr.homework2;

import com.hadoop.ReadFromHdfs;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Partitioner;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

import java.io.IOException;
import java.util.Arrays;
import java.util.HashSet;
import java.util.List;
import java.util.Set;

public class HomeWork2 {
    // 设计kv
    // key 就是学号
    // value 除了学号之外的其它内容
    public static class HomeWork2Mapper extends Mapper<Object, Text, Text, Text> {
        @Override
        protected void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            String[] valueArr = value.toString().split("\t");
            // 第一项就是学号   valArr[0]是key ，剩下的是value
            // 剩下的就是其它的内容      通过for循环依次赋给自定义的String类型的val
            String val = "";
            for (int i = 1; i < valueArr.length; i++) {
                val += valueArr[i];
                if (i != valueArr.length - 1) {
                    val += "\t";
                }
            }
            con

最低0.47元/天解锁文章

Zbrpt

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Hadoop进阶经典案例总结

一，以hdfs路径/tmp/table/student_score.txt为输入，表结构为（学号，姓名，课程名称，成绩），字段间分隔符为tab，如下图所示。通过设置reduce个数为2，自定义hash partition实现将其中姓名为"张一"的放到同一个reduce中，非张一的放到其它的reduce中，输出结果字段为（学号，姓名，课程名称，成绩），按tab分隔即可。具体实现代码（java部分）：package com.hadoop.mr.homework2;import com.ha..
复制链接

扫一扫