该案例中要实现的是根据数据文件中的学生性别,将男生和女生分别放入不同的文件夹中,所以需要我们自定义一个OutputFormat类去实现我们的逻辑。为什么不用分区的思想直接对性别不同的数据进行区分呢,这是因为分区只是把不同的数据放入不同的分区文件中,而我们要实现的是放入不同的文件夹中。
- 数据准备

第三列的值表示性别,1表示男生,0表示女生。
将数据源文件上传至HDFS:
[root@hadoop01 test_data]# hdfs dfs -mkdir /test_custom_ouputformat_input
[root@hadoop01 test_data]# hdfs dfs -put test_custom_outputformat.txt /test_custom_ouputformat_input
新建Project:
- 引入pom依赖
<?xml version="1.0" encoding="UTF-8"?>
<projec
本文介绍了如何使用MapReduce自定义OutputFormat将数据按性别分到不同文件夹。通过处理含有性别信息的数据,实现了男生和女生数据分别存储在独立的文件夹中,详细步骤包括数据准备、项目创建、自定义OutputFormat、RecordWriter、Mapper、主类,以及最后的运行验证。
订阅专栏 解锁全文
2263

被折叠的 条评论
为什么被折叠?



