hadoop的介绍简单易懂

一丶首先需要介绍一下大数据:

物联网时代会产生大量的数据,比如用户的浏览数据,用户的操作行为数据, 爬虫等第三方的数据等等,这些数据量是非常大的. 为了更好地获取数据和操作数据就有了hadoop

二丶hadoop的作用

假如你有一个服务器,叫爬虫服务器 (分为两种 一种叫通用性爬虫 所有的搜索引擎都是, 一种叫聚焦型爬虫 就是针对某想事情做得爬虫)

还有阿里,京东,拼多多,唯品会,苏宁商城这几个商城 假如你们老板说要做一个电商平台没有数据,你就跟老板说"我来给你爬".

你就去这些商城去爬数据 放进你的爬虫服务器里面,你放的越多,服务器的内存是有限的,立马就会存不下

这时候你可以买几台服务器,专门存放数据,爬一个放一个,这就是集群存储的好处 但是这也是有上限的,有缺点,

假如一台服务器崩了,就会导致数据丢失, 这时候你可以将数据存放两个副本到其他机子上,解决服务器崩的问题 这叫副本机制保证安全性

在集群和爬虫服务器之间专门搞一个服务器,只去记录文件存在哪台服务器, 所以这个专门的服务器和集群就叫做hadoop的 第一层框架HDFS (hadoop distribut file system)数据库的管理和存储

但是你不能保证爬下来的数据都是有效的 ,所以最终目的就是对文件中的数据进行运算 获取我们的有效数据.并且单台计算机算力不足,能力不够 可以一台机器用来计算数据,但是这样很慢就可以多搞几台计算机 这就是hadoop的第二层框架MR: MapReduce(分布式并行计算)

如果要计算的文件超过机器的能力,那么可以将文件分成多分分别交给机器处理, 但是有的机器可能不能分配到合适自己的处理的数据 为了让每台计算机达到适用标准,就需要任务调度 这就是hadoop的第三层框架yarn(分布式任务调度框架) Yarn 负责调度分布式任务(就是告诉每个计算器做什么任务)

做完上面的数据之后你需要做成报表 反馈给你的boss

至此就是hadoop的三层框架

第一层框架 HDFS分布式文件系统 存储

第二层框架 MR分布式计算

第三层框架 Yarn分布式调度

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值