hadoop的介绍简单易懂

最新推荐文章于 2022-03-14 21:01:04 发布

duanrui1

最新推荐文章于 2022-03-14 21:01:04 发布

阅读量1k

点赞数

文章标签： hadoop 服务器 big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duanrui1/article/details/122028212

版权

一丶首先需要介绍一下大数据:

物联网时代会产生大量的数据,比如用户的浏览数据,用户的操作行为数据, 爬虫等第三方的数据等等,这些数据量是非常大的. 为了更好地获取数据和操作数据就有了hadoop

二丶hadoop的作用

假如你有一个服务器,叫爬虫服务器 (分为两种一种叫通用性爬虫所有的搜索引擎都是, 一种叫聚焦型爬虫就是针对某想事情做得爬虫)

还有阿里,京东,拼多多,唯品会,苏宁商城这几个商城假如你们老板说要做一个电商平台没有数据,你就跟老板说"我来给你爬".

你就去这些商城去爬数据放进你的爬虫服务器里面,你放的越多,服务器的内存是有限的,立马就会存不下

这时候你可以买几台服务器,专门存放数据,爬一个放一个,这就是集群存储的好处但是这也是有上限的,有缺点,

假如一台服务器崩了,就会导致数据丢失, 这时候你可以将数据存放两个副本到其他机子上,解决服务器崩的问题这叫副本机制保证安全性

在集群和爬虫服务器之间专门搞一个服务器,只去记录文件存在哪台服务器, 所以这个专门的服务器和集群就叫做hadoop的第一层框架HDFS (hadoop distribut file system)数据库的管理和存储

但是你不能保证爬下来的数据都是有效的 ,所以最终目的就是对文件中的数据进行运算获取我们的有效数据.并且单台计算机算力不足,能力不够可以一台机器用来计算数据,但是这样很慢就可以多搞几台计算机这就是hadoop的第二层框架MR: MapReduce(分布式并行计算)

如果要计算的文件超过机器的能力,那么可以将文件分成多分分别交给机器处理, 但是有的机器可能不能分配到合适自己的处理的数据为了让每台计算机达到适用标准,就需要任务调度这就是hadoop的第三层框架yarn(分布式任务调度框架) Yarn 负责调度分布式任务(就是告诉每个计算器做什么任务)

做完上面的数据之后你需要做成报表反馈给你的boss

至此就是hadoop的三层框架

第一层框架 HDFS分布式文件系统存储

第二层框架 MR分布式计算

第三层框架 Yarn分布式调度

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。