学习笔记(01):Hadoop大数据从入门到精通-Hadoop的介绍及基本概念

立即学习:https://edu.csdn.net/course/play/3027/50309?utm_source=blogtoedu

Hapood三大核心组件

1.HDFS:存储、分布式文件系统

2.MapReduce:分布式编程框架(jar包)

3.Yarn:资源调度管理集群,管理分配硬件资源。

 

把Hadoop理解为:

1.当作框架(例如tensorflow),专用于大数据处理,而不是Web开发

2.当作服务软件,C/S架构,例如MySQL(使用JDBC调用),缓存服务redis,索引服务solr。可以存储、分析数据。

 

 

Hadoop的历史:

1.google三篇论文:GFS/MAPREDUCE/BIG TAGE

分别解决了分布式大数据存储、处理、数据库的问题。

2.doug cutting这个人用java把上述论文实现了上述三篇论文的思想。BIG TABLE对应HBASE

3.搜索引擎的核心就是:爬虫+索引

全球的网页数据是庞大的(分布式数据库)、再分析后,建立庞大数据的索引,是非常复杂的。

4.doug cutting再做搜索引擎也有这个问题。后来三个项目独立出来,变为Hadoop。

5.后期hadoop的组件越来越多,不局限于三大组件,成为自己独特的生态。

 

©️2020 CSDN 皮肤主题: 编程工作室 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值