企业级Hadoop大数据平台实战（1）——基础知识说明

最新推荐文章于 2024-05-05 22:04:57 发布

AmourHai

最新推荐文章于 2024-05-05 22:04:57 发布

阅读量836

点赞数

分类专栏： Linux运维进阶

本文链接：https://blog.csdn.net/qq_38548994/article/details/102854919

版权

本文详细介绍了Hadoop的基础知识，包括Hadoop的定义、云计算概念、Hadoop的优点、大数据处理的意义及其核心架构。重点阐述了Hadoop的分布式文件系统HDFS和MapReduce，讨论了Hadoop的高容错性和可伸缩性，并提及了Hadoop的常用模块、生态圈及组件。此外，还探讨了分布式文件系统（DFS）的原理和HDFS的架构设计，强调了其在大数据处理中的作用和意义。

摘要由CSDN通过智能技术生成

#1 hadoop定义

Hadoop是一个由Apache基金会所开发的分布式系统基础架构
用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储
Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS
HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上
而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序
HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据
Hadoop的框架最核心的设计就是：HDFS和MapReduce
HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算

#2 什么是云计算？

Impala is the open source version of Dremel, Google’s proprietary big data query solution. A first beta is available and the production version is foreseen for Q1 2013.

Impala allows you to run real-time queries on top of Hadoop’s HDFS, Hbase and Hive. No migrations necessary.

Apache Crunch (incubating) is a Java library for writing, testing, and running MapReduce pipelines, based on Google’s FlumeJava. Its goal is to make pipelines that are composed of many user-defined functions simple to write, easy to test, and efficient to run.
Running on top of Hadoop MapReduce, Apache Crunch provides a simple Java API for tasks like joining and data aggregation that are tedious to implement on plain MapReduce. For Scala users, there is also Scrunch, an idiomatic Scala API to Crunch.

RHadoop是由Revolution Analytics发起的一个开源项目，它可以将统计语言R与Hadoop结合起来。目前该项目包括三个R packages，分别为支持用R来编写MapReduce应用的rmr、用于R语言访问HDFS的rhdfs以及用于R语言访问HBASE的rhbase。

What is RHIPE?
RHIPE (hree-pay’) is the R and Hadoop Integrated Programming Environment. It means “in a moment” in Greek. RHIPE is a merger of R and Hadoop. R is the widely used, highly acclaimed interactive language and environment for data analysis. Hadoop consists of the Hadoop Distributed File System (HDFS) and the MapReduce distributed compute engine. RHIPE allows an analyst to carry out D&R analysis of complex big data wholly from within R. RHIPE communicates with Hadoop to carry out the big, parallel computations.

Apache Mahout是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等，并且，在 Mahout 的最近版本中还加入了对 Apache Hadoop 的支持，使这些算法可以更高效的运行在云计算环境中。

什么是云计算？针对这个问题，恐怕十个专家会给出十一个互不相同的答案，而事实上也有无数的文章从各个角度试图给出一个简单而确切的定义。在最肤浅的级别上来说，原来基于web 2.0技术开发的曾被称作web应用程序的都可摇身一变称自己为“云程序”，因为任何运行于浏览器中收集并存储用户相关内容的应用都的确可以作为云程序的应用范例，比如以Facebook为代表的社交站点、以内容分享为代表的YouTube、基于Web的邮件服务Gmail以及诸如Google Docs类的应用程序。在这种层面上，“云”指的是运行了这些站点的主机群。诸如此类的应用，每种都会随着用户数据的日积月累进而带来“大数据”问题。

云计算的另一个重要表现是效用计算，即将计算资源本身当作一种可计量的服务，就像电或者水一样。这种模型中，用户只需要向“云供应商”购买实际需要的计算能力即可，实际应用中，这是通过向用户提供运行了某操作系统的虚拟机来实现的，即云供应商使用虚拟化技术在用户之间分配计算资源。用户对其拥有的虚拟机具有完全使用权限，而其使用结束后，只需要“销毁”此虚拟机就能释放其原来占用的资源。

站在效用计算提供商的角度来看，这种模型中运营较大规模的数据中心的收益也会优于小规模的数据中心。目前，虽然有越来越多企业或组织加入，但Amazon Web服务仍是此种应用领域的领头羊和主导者。而相关应用的开源解决方案Eucalyptus也正越来越引起人们的兴趣。效用计算模型的实际应用是通过向用户提供虚拟机实例来完成的，用户通过此虚拟机来访问服务，这即是所谓的“基础架构即服务(IaaS)”。然而，这对许多用户来说都过于“底层”了，于是就有了“平台即服务(PaaS)。PaaS通常指的是一些事先定义好的服务的集合，基于这些服务，用记可以创建应用程序或部署数据等。Google App Engine是此类应用中其最出色的代表，它为用户提供了后台存储及构建高可扩展性web应用程序的API。而其基础架构部分则由Google进行维护，从而让用户从备份、升级、打补丁甚至是提供存储和编程环境等繁琐的日常管理任务中解脱出来。PaaS仍需要用户自己根据实际需要构建应用程序，对于不具有程序研发能力的公司来说，他们需要的是更为高层次一些的服务，“软件即服务（SaaS）”则应运而生。SaaS将某种具体的应用软件以“云服务”的方式通过浏览器向用户提供，其著名的代表有Salesforce提供的CRM软件。

#3 hadoop的优点

Hadoop是一个能够对大量数据进行分布式处理的软件框架。
Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。
Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。
Hadoop 还是可伸缩的，能够处理 PB 级数据。
此外，Hadoop 依赖于社区服务，因此它的成本比较低，任何人都可以使用。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。
用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序

针对性的优点
在这里插入图片描述
Hadoop带有用Java语言编写的框架，因此运行在 Linux 生产平台上是非常理想的
Hadoop 上的应用程序也可以使用其他语言编写，比如 C++

#4 hadoop大数据处理的意义

Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。
Hadoop的分布式架构，将大数据处理引擎尽可能的靠近存储，对例如像ETL这样的批处理操作相对合适，
因为类似这样操作的批处理结果可以直接走向存储。
Hadoop的MapReduce功能实现了将单个任务打碎，并将碎片任务(Map)发送到多个节点上，
之后再以单个数据集的形式加载(Reduce)到数据仓库里