大数据(一) - hadoop生态系统及版本演化

最新推荐文章于 2024-03-12 23:45:13 发布

will的成长之路

最新推荐文章于 2024-03-12 23:45:13 发布

阅读量1.3w

点赞数 16

分类专栏：大数据文章标签： hadoop 生态系统大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/matthewei6/article/details/50499343

版权

大数据专栏收录该内容

28 篇文章 1 订阅

订阅专栏

大数据系列文章汇总链接 - 更新到15篇

HDFS：分布式存储系统（Hadoop Distributed File System）：提供了高可靠性、高扩展性和高吞吐率的数据存储服务

HDFS源自于Google的GFS论文 (发表于2003年10月 )，是GFS克隆版

YARN：资源管理系统（Yet Another Resource Negotiator）：负责集群资源的统一管理和调度，Hadoop 2.0新增系统，使得多种计算框架可以运行在一个集群中

MapReduce：分布式计算框架：具有易于编程、高容错性和高扩展性等优点

MapReduce源自于Google的MapReduce论文（发表于2004年12月），是Google MapReduce克隆版

Hive：由facebook开源，基于MR的数据仓库，数据计算使用MR，数据存储使用HDFS，Hive 定义了一种类 SQL 查询语言——HQL：类似SQL，但不完全相同

日志分析：统计网站一个时间段内的pv、uv

Pig：由yahoo！开源，构建在Hadoop之上的数据仓库

Mahout：数据挖掘库，基于Hadoop的机器学习和数据挖掘的分布式计算框架，实现了三大类算法：推荐(Recommendation) 、聚类(Clustering) 、分类(Classification)

HBase：分布式数据库，源自Google的Bigtable论文，发表于2006年11月，是Google Bigtable克隆版

Zookeeper：分布式协作服务，源自Google的Chubby论文，发表于2006年11月，是Chubby克隆版

解决分布式环境下数据管理问题：统一命名、状态同步、集群管理、配置同步

Sqoop：数据同步工具，连接Hadoop与传统数据库之间的桥梁，支持多种数据库，包括MySQL、DB2等，插拔式，用户可根据需要支持新的数据库；本质上是一个MapReduce程序

Flume：日志收集工具， Cloudera开源的日志收集系统

Oozie：作业流调度系统

目前计算框架和作业类型繁多： MapReduce Java、Streaming、HQL、Pig等

如何对这些框架和作业进行统一管理和调度：

不同作业之间存在依赖关系（DAG）；

周期性作业

定时执行的作业

作业执行状态监控与报警（发邮件、短信等）

Hadoop发行版本

apache hadoop版本

CDH：Cloudera Distributed Hadoop

http://archive.cloudera.com/cdh5/cdh/

HDP：Hortonworks Data Platform

http://zh.hortonworks.com/hdp/downloads/

建议选择公司发行版（不必面临版本某一个框架的选择问题），比如CDH或HDP ，推荐使用CDH（国内主流版本）

更易维护和升级

经过集成测试，不会面临版本兼容问题

--------------------------
微信公众号：IT人成长关注
大数据技术QQ群：485681776

will的成长之路

关注

16
点赞
踩
67

收藏

觉得还不错? 一键收藏
0
评论
大数据(一) - hadoop生态系统及版本演化

HDFS：分布式存储系统（Hadoop Distributed File System）：提供了高可靠性、高扩展性和高吞吐率的数据存储服务 HDFS源自于Google的GFS论文 (发表于2003年10月 )，是GFS克隆版YARN：资源管理系统（Yet Another Resource Negotiator）：负责集群资源的统一管理和调度，Hadoop 2.0新增系
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。