MapReduce
文章平均质量分 91
林边上的猫
这个作者很懒,什么都没留下…
展开
-
MR实战:实现数据去重
在本次实战中,我们致力于使用Hadoop MapReduce技术对两个包含重复数据的文本文件file1.txt和file2.txt进行去重操作,并将结果整合到一个文件中。在开始之前,确保成功启动Hadoop服务,以搭建分布式计算环境,为MapReduce任务提供必要的基础。在虚拟机上创建了file1.txt和file2.txt两个文本文件,并将它们上传到HDFS的目录。这确保了数据能够被MapReduce任务访问。我们创建了自定义Mapper类。原创 2024-01-08 11:47:33 · 939 阅读 · 0 评论 -
MR实战:分科汇总求月考平均分
在当前实战中,我们通过深入学习和应用Hadoop MapReduce框架,成功处理了学生月考成绩数据,主要目标是计算每个同学的语文、数学和英语的平均分。通过启动Hadoop服务,我们确保了分布式计算环境的正常运行,为后续MapReduce任务提供了必要的基础支持。我们在虚拟机上创建了包含语文、数学、英语成绩的文本文件,并将这三个文件上传到HDFS的指定目录。这一步确保了数据的可访问性和可用性。使用Maven创建了名为SubjectAvg的项目,并添加了必要的依赖(hadoop和junit)。原创 2024-01-08 11:03:18 · 782 阅读 · 0 评论 -
MR实战:词频统计
这次实战中,我们利用Hadoop MapReduce框架在虚拟环境中对words.txt文件进行了高效的词频统计。在开始之前,我们首先将待处理的数据文件上传至HDFS,以确保MapReduce任务能够访问数据。这可以通过使用Hadoop命令行或者HDFS客户端工具完成。我们使用IntelliJ IDEA创建了一个Maven项目,并配置了相关依赖项,以确保项目能够顺利运行。这包括Hadoop相关的依赖和其他必要的库。我们的WordCountMapper负责按空格拆分单词并初始化词频为1。原创 2024-01-08 09:41:12 · 858 阅读 · 0 评论 -
MR实战:学生信息排序
本教程介绍了通过Hadoop MapReduce实现学生信息排序任务的步骤。在拓展练习中,我们将修改Student类的比较规则以实现性别升序、年龄降序排序,最后重新运行StudentDriver查看结果。通过这个实践教程,我们深入浅出地了解了MapReduce的基本原理和应用,并领略了它在大数据处理中的强大魅力。原创 2023-12-29 15:52:30 · 915 阅读 · 1 评论 -
MR实战:统计总分与平均分
JDK版本要与服务器上的JDK版本一致。单击【Finish】按钮。原创 2023-12-29 10:52:04 · 408 阅读 · 1 评论