Hadoop：简单介绍

最新推荐文章于 2022-03-14 21:01:04 发布

dnc8371

最新推荐文章于 2022-03-14 21:01:04 发布

阅读量354

点赞数

文章标签：大数据 hadoop java 数据库 python

什么是Hadoop：

Hadoop是一种用Java编写的框架，用于在大型商品硬件集群上运行应用程序，并具有类似于Google File System和MapReduce的功能。 HDFS是高度容错的分布式文件系统，与Hadoop一样，旨在部署在低成本硬件上。它提供对应用程序数据的高吞吐量访问，并且适用于具有大数据集的应用程序。

谁使用Hadoop：

Hadoop主要由处理大量数据的公司使用。他们可能需要处理数据 ， 执行分析或生成报告 。当前，所有领先的组织，包括Facebook，Yahoo，Amazon，IBM，Joost，PowerSet，New York Times，Veoh等，都在使用Hadoop。有关更多信息，请查看PoweredBy Hadoop页面。

为什么选择Hadoop：

MapReduce是Google的秘密武器：一种将复杂的问题分解并散布到许多计算机上的方法。 Hadoop是MapReduce及其自己的文件系统HDFS（Hadoop分布式文件系统）的开源实现。

Hadoop在某种程度上击败了超级计算机：

Hadoop集群在209秒内对1 TB的数据进行了排序，在年度通用（daytona）TB的基准测试中打破了之前297秒的记录。排序基准由Jim Gray于1998年创建，它指定了输入数据（100亿条100字节记录），这些数据必须完全排序并写入磁盘。这是Java或开放源代码程序的首次获奖。有关更多信息，请单击此处。

欧洲最大的广告定位平台使用Hadoop：

欧洲最大的广告公司每天可获得超过100GB的数据，现在使用RDBMS等经典解决方案需要5天的时间进行分析并生成报告。因此他们落后1个弱点。经过大量研究，他们开始使用hadoop。现在有趣的事实是“ Tey能够在1小时内处理数据并生成报告”，这就是Hadoop的魅力所在。有关更多信息，请单击此处。

Hadoop的主要发行版：

1. Apache Hadoop：

Apache Hadoop项目开发了用于可靠，可扩展的分布式计算的开源软件。

Apache Hadoop提供：

Hadoop Common ：支持其他Hadoop子项目的通用实用程序。
HDFS ：一种分布式文件系统，可提供对应用程序数据的高吞吐量访问。
MapReduce ：一个用于在计算集群上对大型数据集进行分布式处理的软件框架。

Avro ：数据序列化系统。
Chukwa ：用于管理大型分布式系统的数据收集系统。
HBase ：可扩展的分布式数据库，支持大型表的结构化数据存储。
Hive ：一种数据仓库基础结构，可提供数据汇总和即席查询。
Mahout ：可扩展的机器学习和数据挖掘库。
Pig ：用于并行计算的高级数据流语言和执行框架。
ZooKeeper ：针对分布式应用程序的高性能协调服务。

2. Cloudera Hadoop：

Cloudera的Apache Hadoop发行版（CDH）为基于Hadoop的数据管理平台设定了新标准。它是当今可用的最全面的平台，可显着加速组织中Apache Hadoop的部署。 CDH基于Apache Hadoop的最新稳定版本。它包括一些从将来发行版反向移植的有用补丁，以及我们为客户开发的改进

Cloudera Hadoop提供：

HDFS –自愈式分布式文件系统
MapReduce –强大的并行数据处理框架
Hadoop Common –一组支持Hadoop子项目的实用程序
HBase – Hadoop数据库，用于随机读写访问
Hive –大型数据集上类似SQL的查询和表
Pig –数据流语言和编译器
Oozie –相互依赖的Hadoop作业的工作流程
Sqoop –将数据库和数据仓库与Hadoop集成
Flume –高度可靠，可配置的流数据收集
Zookeeper –分布式应用程序的协调服务
Hue –用于可视Hadoop应用程序的用户界面框架和SDK

Hadoop体系结构：

Hadoop分布式文件系统（HDFS）是一种旨在在商品硬件上运行的分布式文件系统。它与现有的分布式文件系统有许多相似之处。但是，与其他分布式文件系统的区别很明显。 HDFS具有高度的容错能力，旨在部署在低成本硬件上。 HDFS提供对应用程序数据的高吞吐量访问，并且适用于具有大数据集的应用程序。 HDFS放宽了一些POSIX要求，以实现对文件系统数据的流式访问。