大数据入门学习之HBase MapReduce的实战分析和演练

最新推荐文章于 2021-12-29 12:08:53 发布

IT时代周刊

最新推荐文章于 2021-12-29 12:08:53 发布

阅读量485

点赞数 1

分类专栏： 2019年5月文章标签：大数据程序员编程语言 hadoop

本文链接：https://blog.csdn.net/qq_38459998/article/details/90403828

版权

本文介绍了如何利用HBase MapReduce进行大数据分析，以寻找具有相同兴趣的人为例，详细阐述了Mapper和Reducer的实现，以及如何设置inputFormat和outputFormat。通过实例代码展示了如何进行MapReduce任务，帮助读者理解如何在HBase上进行分布式计算。

摘要由CSDN通过智能技术生成

跟hadoop的无缝集成使得使用MapReduce对habse的数据进行分布式计算非常方便，本文将以前面的blog示例，介绍HBase下MapReduce开发要点。很好理解本文前提是你对Hadoop MapReduce有一定的了解。

HBase MapReduce核心类介绍

首先一起来回顾下MapReduce的基本编程模型，

可以看到最基本的是通过Mapper和Reducer来处理KV对，Mapper的输出经Shuffle及Sort后变为Reducer的输入。除了Mapper和Reducer外，另外两个重要的概念是InputFormat和OutputFormat，定义了Map-Reduce的输入和输出相关的东西。HBase通过对这些类的扩展(继承)来方便MapReduce任务来读写HTable中的数据。

在这里我还是要推荐下我自己建的大数据学习交流qq裙：522189307 ，裙里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入，大家都是软件开发党，不定期分享干货（只有大数据开发相关的），包括我自己整理的一份最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取