Hadoop在linux下的安装。以及HDFS相关的概念

最新推荐文章于 2024-06-15 21:55:46 发布

DoNOtTOBeAL0Ser

最新推荐文章于 2024-06-15 21:55:46 发布

阅读量482

点赞数

分类专栏： java 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DoNOtTOBeAL0Ser/article/details/52960247

版权

java 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

Zebra项目中存在的问题（引出hadoop）

没有考虑到海量数据的存储和管理问题

没有考虑到节点的故障问题，比如通过心跳机制确保集群的高可用

只有一个合并节点（engine2），如果合并的任务量非常大，则会造成单点工作负荷大。

在zebra项目中，有很多业务的处理思想可以提炼出来，提炼出计算框架。（如逻辑切块,位置追溯，key值的合并）。即没有用计算框架来处理业务，导致以后有新任务还会做重复繁琐的工作。

任务资源管理和调度。比如对每一个job任务进行cpu和内存的合理分配。比如yarn和mesos。

Hadoop的作者doug cutting以及hadoop的起源

Doug Cutting 是Lucence Nutch 和hadoop的创始人。

Nutch是搜索引擎，是基于Lucence实现的。Nutch相当于lucence的web应用，可以抓取网页，爬取数据。

2004年，cutting研发出来nutch,nuctch负责抓取数据，数据是非结构化的数据，而且是海量数据。数据存储的数据是利用二维表来存储的，即行和列。此时，nutch面临的问题就是海量数据的存储和管理问题。如果这个问题解决不了，就谈不上后续的利用算法做网页排名以及优化检索速度，提高用户的搜索体验。

正好此时Google发表了两篇论文《Google FileSystem》《Google Mapreduce》

《Google FileSystem》GFS是Google公司分布式文件系统，用于解决海量数据的存储问题。

《Google Mapreduce》MapReduce是Google运行在GFS上的计算框架。这个计算框架的目的是便于不懂分布式编程的人员也可以将任务运行在分布式环境下。

Cutting根据《GFS》设计了HDFS，hadoop distributed filesystem 。Hadoop诞生的目的，最开始为了解决nutch抓取海量数据的存储问题。在nutch0.8版本以前，hadoop是 nutch的子项目。在0.8版本，独立出来，单独称为一个项目。后来，Cutting 根据《Google Mapreduce》设计了基于HDFS的MapReduce计算框架。

2006年，cutting带着这Hadoop来到Yahoo,后来Yahoo把Hadoop贡献给Apache。现在是Apache的顶级项目。

Hadoop 版本

Hadoop 1.0 HDFS +MapReduce

Hadoop 2.0 HDFS+ MapReduce +yarn（资源调度框架）。引入框架之后，不仅可以运行mapreduce一种框架，还可以运行其他流式框架Strom等。

Hadoop3.0在2016年9月12日发布据说比当前spark快很多

资源调度框架

Yarn mesos都是apache的产品

Hadoop单机的安装

待完善

DoNOtTOBeAL0Ser

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop在linux下的安装。以及HDFS相关的概念

Zebra项目中存在的问题（引出hadoop）没有考虑到海量数据的存储和管理问题没有考虑到节点的故障问题，比如通过心跳机制确保集群的高可用只有一个合并节点（engine2），如果合并的任务量非常大，则会造成单点工作负荷大。在zebra项目中，有很多业务的处理思想可以提炼出来，提炼出计算框架。（如逻辑切块,位置追溯，key值的合并）。即没有用计算框架来处理业务，导致以后有新任务还
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。