为什么要用
硬盘数据存储增长的速度远远超过硬盘数据读取增长的速度->思路:将数据存储到多个硬盘里->问题:硬件故障(解决:复本);读取正确性
Hadoop 提供了一个可靠的且可扩展的存储和分析平台,运行在商用硬件上且开源,成本较低。
简述
Hadoop 是基于 Java 的开源框架,用于管理应用的大量数据的存储和处理。Hadoop 使用分布式存储和并行处理来处理大数据和分析作业,将工作负载分解为可同时运行的较小工作负载。
Hadoop 框架主要由四个模块组成:
- Hadoop Common:支持其他 Hadoop 模块的通用实用程序。
- Hadoop Distributed File System (HDFS):一种分布式文件系统,可提供对应用数据的高吞吐量访问。
- Hadoop YARN:作业调度和集群资源管理框架。
- Hadoop MapReduce:基于 YARN 的大型数据集并行处理系统。
论文
2003——《GFS》解决了如何存储大数据集问题
https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/gfs-sosp2003.pdf
2004——《MapReduce》解决了如何快速分析大数据集问题
https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/mapreduce-osdi04.pdf
2006——《BigTable》提出一种适合存储大数据集的解决方案
https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/bigtable-osdi06.pdf
版本介绍
- Apache Hadoop(社区版):原生Hadoop,开源免费,更新速度快,适合学习阶段
- Cloudera Hadoop(CDH版):成型的商业发行版本,支持多种安装,更新速度快
- Hortonworks Hadoop(HDP):开源,安装方便,提供直观界面