第二章 Hadoop介绍

为什么要用

硬盘数据存储增长的速度远远超过硬盘数据读取增长的速度->思路:将数据存储到多个硬盘里->问题:硬件故障(解决:复本);读取正确性

Hadoop 提供了一个可靠的且可扩展的存储和分析平台,运行在商用硬件上且开源,成本较低。

简述

Hadoop 是基于 Java 的开源框架,用于管理应用的大量数据的存储和处理。Hadoop 使用分布式存储和并行处理来处理大数据和分析作业,将工作负载分解为可同时运行的较小工作负载。

Hadoop 框架主要由四个模块组成:

  • Hadoop Common:支持其他 Hadoop 模块的通用实用程序。
  • Hadoop Distributed File System (HDFS):一种分布式文件系统,可提供对应用数据的高吞吐量访问。
  • Hadoop YARN:作业调度和集群资源管理框架。
  • Hadoop MapReduce:基于 YARN 的大型数据集并行处理系统。

论文

2003——《GFS》解决了如何存储大数据集问题

https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/gfs-sosp2003.pdf

2004——《MapReduce》解决了如何快速分析大数据集问题

https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/mapreduce-osdi04.pdf

2006——《BigTable》提出一种适合存储大数据集的解决方案

https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/bigtable-osdi06.pdf

版本介绍

  • Apache Hadoop(社区版):原生Hadoop,开源免费,更新速度快,适合学习阶段
  • Cloudera Hadoop(CDH版):成型的商业发行版本,支持多种安装,更新速度快
  • Hortonworks Hadoop(HDP):开源,安装方便,提供直观界面

生态系统

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值