Hadoop（一）——hadoop的子项目

最新推荐文章于 2021-09-01 13:34:39 发布

王者之名

最新推荐文章于 2021-09-01 13:34:39 发布

阅读量2.3k

点赞数

分类专栏： Hadoop 文章标签： hadoop mapreduce pig 分布式应用存储 hbase

本文链接：https://blog.csdn.net/alephsoul/article/details/5972166

版权

Hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Hadoop子项目中最出名的是MapReduce和HDFS，还有Core、Avro、Pig、Hbase、Zookeeper、Hive和Chukwa这几

子项目：

MapReduce：分布式数据处理模式和执行行环境，运行于大型商用机集群。

HDFS：前身是NDFS，分布式文件系统，运行于大型商用机集群。

Core：一系列分布式文件系统和通用I/O的组件和接口（序列化、java RPC和持久化数据结构）。

Avro：一种提供高效、跨语言RPC的数据序列系统，持久化数据存储。

Pig：一种数据流语言和运行环境，用以检索非常大的数据集。Pig运行在MapReduce和HDFS的集群上。

Hbase：一个分布式的，列存储数据库，使用HDFS作为底层存储，同时支持MapReduce的批量式计算和点查询。

Zookeeper：一个分布式的、高可用的协调服务。Zookeeper提供分布式锁之类的基本服务用于构建分布式应用。

Hive：分布式数据仓库。Hive管理HDFS中存储的数据，并提供基于SQL的查询语言用以查询数据。

Chukwa：分布式数据收集和分析系统，运行HDFS中存储数据的收集器，使用MapReduce来生成报告。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

王者之名

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Hadoop综合项目——二手房统计分析（可视化篇）

CSDN2022博客之星Top39；华为云博主7&，CSDN、稀土掘金、微信公众号、阿里云开发者社区、腾讯云社区、博客园、知乎、51CTO同名博主WHYBIGDATA；

12-25

5879

Hadoop综合项目——二手房统计分析（可视化篇）

搭建Hadoop集群——易出现问题及解决办法

weixin_46328436的博客

09-28

2323

一.学习目标了解虚拟机的安装与克隆熟悉Linux系统的网络配置和SSH的配置掌握Hadoop集群的搭建和配置掌握Hadoop集群的测试熟悉Hadoop集群的初体验的操作二.搭建 1.创建虚拟机 1.1 下载安装VMware Workstation 下载安装VMware Workstation （为了解决版本不兼容的问题，建议安装版本高一点） 1.2创建虚拟机并虚拟机启动初始化并克隆 1.3Linux 系统网络配置进入编辑点击虚拟网络编辑器选择NAT模式，点击下方更改设置此

参与评论您还未登录，请先登录后发表或查看评论

1.《hadoop实战》Hadoop子项目及其结构

eternity_zzy的博客

12-03

861

现在Hadoop已经发展成为包含多个子项目的集合。虽然其核心内容是MapReduce和 Hadoop分布式文件系统（HDFS），但Hadoop下的Common、Avro、Chukwa, Hive、HBase等子项目也是不可或缺的。它们提供了互补性服务或在核心层上提供了更高层的服务。 l ) Core/Common ：从Hadoop0.20版本开始，HadoopCore项目便更各为Commo...

Hadoop及子项目介绍

jessezhang1981的专栏

08-13

207

Hadoop及子项目介绍 Hadoop是Apache的一个项目(http://hadoop.apache.org/),它是一个实现了MapReduce计算模型的可以运用于大型集群并行计算的分布式并行计算编程框架。目前，整个Hadoop家族由以下几个子项目组成： Hadoop CommonHadoop体系最底层的一个模块，为Hadoop各子项目提供各种工具，如：配置文件和日志操作等。...

hadoop入门--子项目

dawuafang

07-31

130

hadoop发展至今已经是一个庞大的家族,该家族有数十个生命力强盛的子项目,hadoop和这些子项目都在不停的发展中. Hbase Hbase是一个非关系型的数据库,列式数据库,链式存储,查询语言可称为HQL查询语言,Hbase Query Lanaguage. 是Google Bigtable的开源实现，big table是无所不包的大表，所有的表，都能靠3列显示出...

Hadoop 的子项目

五彩铅笔

12-23

664

Hadoop 的子项目 Hadoop最出名的是 MapReduce及其分布式文件系统（HDFS），但还有其他子项目提供配套服务，其他子项目提供补充性服务。这些子项目的简要描述如下。 Pig 一种数据流语言和运行环境，用以检索非常大的数据集。Pig运行在MapReduce和HDFS的集群上。 Hbase 一个分布式的、列存储数据库。HBase使用H

Hadoop主要子项目介绍（Pig Zookeeper Hbase Hive Sqoop Avro Chukwa Cassandra ）

小硒---代码无疆

04-24

4358

现在Hadoop已经发展成为包含多个子项目的集合。虽然其核心内容是MapReduce和Hadoop分布式文件系统(HDFS)，但Hadoop下的Common、Avro、Chukwa、Hive、HBase等子项目也是不可或缺的。它们提供了互补性服务或在核心层上提供了更高层的服务。

Hadoop组件——HDFS

m0_47792921的博客

09-01

378

1，HDFS简介 HDFS（Hadoop Distributed File System）是hadoop项目的核心子项目，在大数据开发通过分布式计算对海量数据进行存储与管理。它基于流数据模式访问和处理超大文件的需求而开发，可以运行在廉价的商用服务器上，为海量数据提供了不怕故障的存储方法，进而为超大数据集的应用处理带来了很多便利。 HDFS的特点： HDFS非常适合使用商业硬件进行分布式存储和分布式处理。它具有容错性，可扩展性，并且扩展极其简单。 HDFS具有高度可配置性。大多...

大数据技术之Hadoop——（一）Hadoop简介

m0_46615073的博客

08-04

718

2021大数据技术学习之路

Hadoop首选串行化系统——Avro简介及详细使用

01-07

Avro是Hadoop中的一个子项目，也是Apache中一个独立的项目，由Hadoop的创始人Doug Cutting（也是Lucene，Nutch等项目的创始人）开发，设计用于支持大批量数据交换的应用。Avro是一个基于二进制数据传输高性能的...

2、hadoop子项目

nickfover的专栏

11-13

104

##Pig---hadoop客户端 Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。 http://guoyunsky.iteye.com/blog/1317084 http://blac...

Hadoop(六)——子项目Pig

学会改变自己——才能突破

09-16

6404

前边，讲述了Hadoop的两大支柱HDFS和MapReduce，我们通过将大数据的数据文件放在HDFS上，利用Java编写Map-Reduce,来实现数据的各种分析，并预测一些东西，实现大数据的商业价值，从而也体现了Hadoop价值所在。但是反观传统系统中，我们都是通过数据库进行数据分析的，例如关系型数据库：Oracle,SQL Server,mysql等，更进一步的通过NO SQL数据

Hadoop家族包含的子项目及其主要功能

kevin_xiang的专栏

07-30

2262

Hadoop Common Hadoop体系最底层的一个模块，为Hadoop各子项目提供各种工具，如：配置文件和日志操作等。 Avro Avro是doug cutting主持的RPC项目，有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC，使hadoop的RPC模块通信速度更快、数据结构更紧凑。 Chukwa C

Hadoop主要子项目

云端飞翔

07-01

1174

Hadoop Common: 在0.20及以前的版本中，包含HDFS、MapReduce和其他项目公共内容，从0.21开始HDFS和MapReduce被分离为独立的子项目，其余内容为Hadoop Common * HDFS: Hadoop 分佈式文件系統 (Distributed File System) － HDFS (Hadoop Distributed File System) * Ma

Hadoop子项目介绍

weixin_34087503的博客

05-09

367

Hadoop家族项目图谱各子项目介绍（1）PigHadoop客户端，解决非Java程序员使用Hadoop难题使用类似于SQL的面向数据流的语言Pig LatinPig Latin可以完成排序，过滤，求和，聚组，关联等操作，可以支持自定义函数Pig自动把Pig Latin映射为Map-Reduce作业上传到集群运行，减少用户编写Java程序的苦恼三种运行方式：Grunt she...

Hadoop当前所包含的子项目汇总

Derekjiang的笔记簿

09-29

2591

目前，Hadoop project下已经包含了很多的子项目，有的是从原有的hadoop项目中细化出来的，有的是在hadoop的基础之上演变出来的，本文只是引用hadoop文档中关于其子项目的介绍，以备了解。 The project includes these subp

hadoop子项目---pig

坚持到底

10-04

1311

1、Pig包括用于描述数据流的语言Pig Latin和用于运行Pig Latin的执行环境（单JVM中的本地执行环境和hadoop集群上的分布式环境）。 2.Pig会扫描整个数据集或其中很大的一部分，因此它不支持低延迟查询。 3.Pig的执行模式分为本地模式pig -x local （访问本地文件系统，适用于小规模数据集）和mapreduce模式（Pig将查询翻译为mapredu

hadoop的一系列子项目能为我们做什么？

技术人宝哥

08-29

1224

hive: hive是基于hadoop的hdfs的工具，可以将结构化的数据文件映射成一张数据表，并提供完整的sql查询功能，可以将sql语句转换成MapReduce任务运行。主要适合数据仓储的统计分析。这是一种可以存储、查询、分析hdfs中的大数据的机制。结构：用户接口：CLI、Client、WUI（通过浏览器访问Hive）元数据存储：Hive将元数据存储在数据库中,如:mysq

Zookeeper 是 Apache Hadoop 项目下的一个子项目，是一个树形目录服务。

酆都城博客

08-22

198

Zookeeper 翻译过来就是动物园管理员，他是用来管 Hadoop（大象）、Hive(蜜蜂)、Pig(小猪)的管理员。简称zk •Zookeeper 是一个分布式的、开源的分布式应用程序的协调服务。 •Zookeeper 提供的主要功能包括： •配置管理 •命名服务提供方在启动的时候，像zk中指定的节点/dubbo/${serviceName}/providers目录中写入自己的URL地址，这个操作就是注册服务。消费方在消费提供方的时候，订阅/dubbo/serviceName/prov

Facebook设计的Hadoop子项目：Hive，数据仓库的强大工具

Hive是基于Hadoop的数据仓库解决方案，其核心在于提供了一种结构化的数据管理框架，使得非技术背景的数据分析师能够使用类似SQL的语言——HiveQL进行数据查询和分析。 Hive的基本架构建立在Hadoop之上，它整合了...