使用Linux 和Hadoop 进行分布式计算

最新推荐文章于 2021-11-28 19:20:28 发布

大数据框架Hadoop学习

最新推荐文章于 2021-11-28 19:20:28 发布

阅读量180

点赞数

分类专栏： 2019年5月 2019年3月 2019年1月 2018年11月 2018年9月 2017年6月 2006年5月 2010年9月 2015年3月 2019年4月 2019年2月 2018年12月 2018年10月 2017年7月 2015年4月 2014年3月 2009年10月 2004年3月文章标签：大数据程序员编程语言

本文链接：https://blog.csdn.net/qq_38460284/article/details/90205209

版权

人们每天都依赖搜索引擎以从 Internet 的海量数据中找到特定的内容，但您曾经想过这些搜索是如何执行的吗？一种方法是 Apache 的 Hadoop，它是一个能够对海量数据进行分布式处理的软件框架。Hadoop 的一个应用是并行索引 Internet Web 页面。Hadoop 是一个受到 Yahoo!、Google 和 IBM 等公司支持的 Apache 项目。本文将介绍 Hadoop 框架，并展示它为什么是最重要的基于 Linux? 的分布式计算框架之一。

Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene 的子项目 Nutch 的一部分正式引入。它受到最先由 Google Lab 开发的 MapReduce 和 Google File System 的启发。2006 年 3 月份，MapReduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。

Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具，但它也可以解决许多要求极大伸缩性的问题。例如，如果您要 grep 一个 10TB 的巨型文件，会出现什么情况？在传统的系统上，这将需要很长的时间。但是 Hadoop 在设计时就考虑到这些问题，因此能大大提高效率。

先决条件

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。

您可能已经想到，Hadoop 运行在 Linux 生产平台上是非常理想的，因为它带有用 Java? 语言编写的框架。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。

Hadoop 架构

Hadoop 有许多元素构成。最底部是 Hadoop Distributed File System（HDFS），它存储 Hadoop 集群中所有存储节点上的文件。HDFS（对于本文）的上一层是 MapReduce 引擎，该引擎由 JobTrackers 和 TaskTrackers 组成。

HDFS

对外部客户机而言，HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件，等等。但是 HDFS 的架构是基于一组特

最低0.47元/天解锁文章

大数据框架Hadoop学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用Linux 和Hadoop 进行分布式计算

人们每天都依赖搜索引擎以从 Internet 的海量数据中找到特定的内容，但您曾经想过这些搜索是如何执行的吗？一种方法是 Apache 的Hadoop，它是一个能够对海量数据进行分布式处理的软件框架。Hadoop 的一个应用是并行索引 Internet Web 页面。Hadoop 是一个受到 Yahoo!、Google 和 IBM 等公司支持的 Apache 项目。本文将介绍 Hadoop 框架...
复制链接

扫一扫