hadoop学习一(简介)

一、hadoop简介

作用:一种分析和处理大数据的软件平台,再大量计算机组成中实现对海量数据的分布式计算。

语言:java

形式:Hadoop 是一个基础框架,允许用简单的编程模型在计算机集群上对大型数据集进行分布式处理。它的设计规模从单一服务器到数千台机器,每个服务器都能提供本地计算和存储功能,框架本身提供的是计算机集群高可用的服务,不依靠硬件来提供高可用性。

二、Hadoop 生态圈

  • Hadoop 是一个由 Apache 基金会开发的大数据分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,轻松地在 Hadoop 上开发和运行处理大规模数据的分布式程序,充分利用集群的威力高速运算和存储。
  • Hadoop 是一个数据管理系统,作为数据分析的核心,汇集了结构化和非结构化的数据,这些数据分布在传统的企业数据栈的每一层。
  • Hadoop 也是一个大规模并行处理框架,拥有超级计算能力,定位于推动企业级应用的执行。
  • Hadoop 又是一个幵源社区,主要为解决大数据的问题提供工具和软件。

HDFS:提供高可用的获取应用数据的分布式文件系统。

MapReduce:并行处理大数据集的编程模型

HBase:可拓展的分布式数据库,支持大表的数据结构化数据存储。是一个建立再HDFS之上的,面向列的nosql数据库,用于快速读、写大量数据。

Hive:建立在hadoop上的数据仓库基础架构,它提供了一系列的工具--可以用来进行数据提取转换加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据机制。Hive定义了简单的类sql查询语句,称为HQL,它允许不熟悉MaoRedyce的开发人员页能编写数据查询语句,然后这些语句背翻译为Hadoop上面的MapReduce任务。

Mahout:可拓展的机器学习和数据挖掘库。提供的MaoReduce包含很多实现方法,包括聚类算法、

回归测试、统计建模。

Pig:支持进行计算的高级的数据流语言和执行框架,他是MapReduce编程的复杂性的抽象。平台包括运行环境金额用于分析Hadoop数据集的脚本语言。

Zookeeper:应用于分布式樱桃的高性能的协调服务。他是一个为分布式应用提供一致性服务的软件,提供包括功能配置、域名服务、分布式同步、祖父等。

Amban:一个基于web的工具,用于供应、管理和监测hadoop集群,摆阔啊支持HDFS、MapReduceAHive、Hcatalog、HBase、ZookeeperAOozie、Pig和Sqoop。

Sqoop:连接工具,用于在关系数据库、数据仓库和Hadoop之间转移数据。利用数据库技术描述架构,进行数据的导入/导出;利用 MapReduce 实现并行化运行和容错技术。

Flume:提供了分布式、可靠、高效的服务,用于收集、汇总大数据,并将单台计算机的大量数据转移到HDFS.它基于一个简单而灵活的架构,并提供了数据流的流。利用简单的可拓展的数据模型,将企业中多态计算机的数据转移到hadoop.

学习地址:Hadoop集群系列(目录) - 虾皮 - 博客园 (cnblogs.com)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值