Hadoop平台倒排索引应用举例

最新推荐文章于 2023-07-27 09:36:12 发布

行者小朱

最新推荐文章于 2023-07-27 09:36:12 发布

阅读量1.3k

点赞数

分类专栏： DM&DL&ML 文章标签： hadoop

本文链接：https://blog.csdn.net/u012050154/article/details/50593210

版权

21 篇文章 4 订阅

订阅专栏

一、Hadoop介绍

一种分布式系统架构，可以使用户在不了解分布式系统底层的细节的情况下开发分布式程序，框架最核心组件包括HDFS和MapReduce

1、HDFS：分布式文件系统，为海量数据提供存储

2、MapReduce：一种编程模型、离线计算框架，我们只需要将处理过程抽象成为Map过程和Reduce过程（Map将用户输入的数据解析成<key1,value1>对形式作为中间结果，Reduce根据自定义的逻辑将Map输出的中间结果处理成新的<key2,value2>形式作为最终结果输出）

该介绍运用的基于Hadoop的源程序在GitHub点击打开链接

1、初始有3份文档

  1.txt：MapReduce is simple
  2.txt：MapReduce is powerful is simple
  3.txt：Hello MapReduce bye MapReduce

2、最终目的是：得到每个单词在哪些文档中出现过及出现的次数(eg：单词“MapRduce”在1.txt中出现1次，在2.txt中出现1次，在3.txt中出现2次)

以上为倒排索引的过程描述，通过一个实例才能更好的理解Hadoop平台

关注

专栏目录