Hadoop入门零：简单介绍

最新推荐文章于 2023-02-05 18:11:13 发布

阿星_Alex

最新推荐文章于 2023-02-05 18:11:13 发布

阅读量135

点赞数

分类专栏： # Hadoop 文章标签： hadoop big data 大数据 yarn mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35515283/article/details/120191668

版权

Hadoop 专栏收录该内容

14 篇文章 2 订阅

订阅专栏

本文内容来自尚硅谷hadoop课程

目录

1、Hadoop是什么？

2、Hadoop的发展历史

3、Hadoop的三大发行版本

4、Hadoop优势（4高）

5、Hadoop的组成

HDFS架构概念

MapReduce的架构

6、大数据系统的生态体系

7、大数据推荐系统框架图

1、Hadoop是什么？

1) Hadoop是一个由 Apache基金会所开发的分布式系统基础架构

2)主要解決,海量数据的存储和海量数据的分析计算问题

3)广义上来说, Hadoop通常是指一个更广泛的概念 -Hadoop生态圈

2、Hadoop的发展历史

1) Lucene框架是 Doug Cutting开创的开源软件,用ava书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的査询引擎和索引引擎。

2)2001年年底 Lucene成为 Apache基金会的一个子项目。

3)对于海量数据的场景, Lucene面对与 Google同样的困难,存储数据困难,检索速度慢。

4)学习和模仿 google解决这些问题的办法:微型版Nutch。

5)可以说Google是 Hadoop的思想之源 Google在大数据方面的三篇论文)

GFS -->HDFS

Map-reduce--->MR

Bigtable --->Hbase

6)2003-2004年，Google公开了部分GFS和MapReduce思想的细节，已此为基础Doug Cutting等人用了两年业余时间实现了DFS和MapReduce机制，使Nutch的性能飙升。

7)2005年Hadoop作为Lucene的子项目Nutch的一部分，正式引入Apache基金会。

8)2006年三月，MapReduce和Nutch Distributed File System（NDFS）分别被纳入Hadoop的项目中。

9)名字来源Doug Cutting儿子的玩具大象。

10)Hadoop就此诞生并迅速发展，标志着大数据时代的到来。

3、Hadoop的三大发行版本

三大发行版本：Apache、Cloudera、Hortonwork

Apache版本最原始(最基础)的版本,对于入门学习最好。

Cloudera在大型互联网企业中用的较多。

Hortonworks文档较好。

4、Hadoop优势（4高）

1)高可靠性: Hadoop底层维护多个数据副本,所以即使 Hadoop某个计算元素或存储岀现故障,也不会导致数据的丟失。

2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点

3)高效性:在 Mapreduce的思想下, Hadoop是并行工作的,以加快任务处理速度。

4)高容错性:能够自动将失败的任务重新分配。

5、Hadoop的组成

HDFS架构概念

1) Namenode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的 Datanode等。

yarn的架构

MapReduce的架构

MapReduce将计算过程分为两个阶段，Map和Reduce

1)Map阶段并行处理输入数据

2)Reduce阶段对Map结果进行汇总

6、大数据系统的生态体系

7、大数据推荐系统框架图

最后

声明：本文内容出自阿里云官网上大数据开发工程师学习路径下的尚硅谷网课。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hadoop入门零：简单介绍

1、Hadoop是什么？1) Hadoop是一个由 Apache基金会所开发的分布式系统基础架构2)主要解決,海量数据的存储和海量数据的分析计算问题3)广义上来说, Hadoop通常是指一个更广泛的概念 -Hadoop生态圈2、Hadoop的发展历史1) Lucene框架是 Doug Cutting开创的开源软件,用ava书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的査询引擎和索引引擎。2)2001年年底 Lucene成..
复制链接

扫一扫

专栏目录

阿星_Alex CSDN认证博客专家 CSDN认证企业博客

码龄8年

64: 原创

10万+: 周排名

219万+: 总排名

8万+: 访问

: 等级

707: 积分

43: 粉丝

66: 获赞

15: 评论

186: 收藏

私信

关注

热门文章

分类专栏

云原生
Docker 1篇
Kubernetes 1篇
读书笔记 4篇
bug 3篇
其他 1篇
JavaWeb 4篇
中间件 2篇
框架 2篇
数据库 3篇
大数据
flume 1篇
elasticsearch 6篇
Hadoop 14篇
开发语言
Python 2篇
go 3篇
JAVA 7篇
算法 7篇
Linux 3篇

最新评论

JavaWeb基础学习一无框架项目小练习
天蓝999: 可以的，我看的另一个Java项目视频，从零开发，十天学会了SpringBoot项目实战：https://knife.blog.csdn.net/article/details/132622876
HDFS学习三：NameNode和SecondaryNameNode工作机制
「已注销」: 您好，抱歉打扰了，关于HDFS中的NameNode和Secondary NameNode我有一个问题，假如当前计算机需要4条edit记录去描述一个完整的文件变动行为，这意味着edit.inprogress需要跨4个单位即edit0000012-edit0000015才是一条完整的edit，如果edit.inprogress当前正在已追加两条，检查点机制开启，NameNode会新创建一个edit.inprogress存放新的edit，那么在之前inprogress中已书写完毕的两条数据会和还未书写的两条数据一并被拷贝到新的inprogress中吗？还是与fsimage一起被拷贝到SNN中合并呢？
HDFS学习二：客户端操作
欧美大山雀: 老东西写的还不错
Java基础之String类型详解
Queen Of Hearts: 不是应该保存在常量池吗
递归方法相关题目
Cdf（人名）: 感谢博主分享，讲的挺不错，希望后面有更多的文章!期待大佬回访！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

阿星_Alex 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。