1、认识Hadoop
- Hadoop是Apache旗下的一套开源软件平台。
- Hadoop是用来分析和处理大数据的软件平台。
- Hadoop提供的功能:利用服务器集群,根据用户的自定义业务逻辑, 对海量数据进行分布式处理。
- Hadoop的核心组件:HDFS、MapReduce、Yarn
- 广义上来说,Hadoop通常指的是指一个更广泛的概念->Hadoop生态 圈。
- 云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚 拟化、负载均衡等传统计算机技术和互联网技术融合发展的产物。借助 IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等业 务模式,把强大的计算能力提供给终端用户。
- 现阶段,云计算的两大底层支撑技术为虚拟化和大数据技术。
- HADOOP则是云计算的PaaS层的解决方案之一,并不等同于PaaS,更 不等同于云计算本身。
- HADOOP应用于数据服务基础平台建设。
- HADOOP用于用户画像。
- HADOOP用于网站点击流日志数据挖掘。
2、Hadoop的生态圈
1、HDFS(hadoop分布式文件系统)
是hadoop中数据存储管理的基础。
是一个高度容错的系统,能检测和应对硬件故