立即学习:https://edu.csdn.net/course/play/3027/50309?utm_source=blogtoedu
Hapood三大核心组件
1.HDFS:存储、分布式文件系统
2.MapReduce:分布式编程框架(jar包)
3.Yarn:资源调度管理集群,管理分配硬件资源。
把Hadoop理解为:
1.当作框架(例如tensorflow),专用于大数据处理,而不是Web开发
2.当作服务软件,C/S架构,例如MySQL(使用JDBC调用),缓存服务redis,索引服务solr。可以存储、分析数据。
Hadoop的历史:
1.google三篇论文:GFS/MAPREDUCE/BIG TAGE
分别解决了分布式大数据存储、处理、数据库的问题。
2.doug cutting这个人用java把上述论文实现了上述三篇论文的思想。BIG TABLE对应HBASE
3.搜索引擎的核心就是:爬虫+索引
全球的网页数据是庞大的(分布式数据库)、再分析后,建立庞大数据的索引,是非常复杂的。
4.doug cutting再做搜索引擎也有这个问题。后来三个项目独立出来,变为Hadoop。
5.后期hadoop的组件越来越多,不局限于三大组件,成为自己独特的生态。