大数据Hadoop原理01_生态圈技术栈

离线数据处理的主要工具Hive 是必须极其熟练地掌握和精通的,但Hive 背后是Hadoop 的HDFS 和M叩Reduce , 需要会MapReduce 编程么?从笔者的工作实践以及了解来看,这不是必须掌握的,但是数据开发人员必须掌握其概念、架构和工作原理,也就是说,不但要知其然,而且要知其所以然。

1.起源

Hadoop 的源头是Apache 的Nutch 项目,该项目由Doug Cutting 于2002 年8 月创建,随着2006 年1 月Doug 加盟雅虎搜索,同时基于MapReduce 和GFS 的这套东西在Nutch 的良好应用,它们于2006 年2 月被分离出来,成了一套完整而独立的软件。Doug 用自己儿子的黄色大象玩具的名字“ Hadoop ”来为此项目命名。adoop 系统进入雅虎之后,得以逐渐发展和成熟,从刚开始小打小闹的几十台机器发展到能支持上千个节点的机器,同时调度、权限控制和稳定性等工程特征也被逐步完善,业务应用也从单一的搜索扩展到数据处理、分析和挖掘等。

2.发展

正是Hadoop 开启了大数据时代的大门!而首先拥抱Hadoop 的是国内外的互联网公司。Hadoop 在诞生之初还很不完善,比如没有海量节点的成功运行案例、不稳定、有bug 、缺乏企业级特性等。

从国外的Yahoo 、Facebook 到国内的百度、阿里和腾讯, 上千节点的Hadoop 集群很快被搭建并运用到网页搜索、日志分析、电子商务数据处理等每天数以百TB 甚至PB 级别的数据处理和分析中。

截至2016 年1 月28 日, Hadoop 已经诞生十周年了,在这十年间,不仅MapReduce为代表的离线批处理计算得到了极大发展和普及,纵向上来说,数据采集、ETL , 数据分析、数据可视化、数据挖掘,横向上来说流计算、内存计算、即时计算等都得到了极大的发展,相关的开源产品、框架和技术纷纷涌现并被纳入Hadoop 大数据开源社区,从底层调度和资源管理的YARN/ZooKeeper 到SQL on Hadoop 的Hive ,从分布式的NoSQL 数据库HBase 到流计算Storm 框架,从海量日志采集处理框架Flume 到海量消息分布式订阅-消费系统Kafka ,所有这些技术共同组成了一个完善的、彼此良性互动和补充的Hadoop 大数据生态系统。

3.生态

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

清平乐的技术博客

你的鼓励是我最大创作动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值