【大数据开发】HDFS——Hadoop概念、背景、生态圈、分布式系统day34

一、Hadoop概念

1.Hadoop是Apache基金会旗下一个开源的分布式存储和分析计算平台,使用java语言开发,具有很好的跨平台性,可以运行在商用(廉价)硬件上,用户无需了解分布式底层细节,就可以开发分布式程序,充分使用集群的高速计算和存储。

hadoop提供的功能:利用服务器集群,根据用户自定义的业务逻辑,对海量数据进行分布式处理

Hadoop Common:支持其他hadoop模块的通用工具
HDFS(Hadoop Distributed File System):hadoop的分布式文件系统,可提供对应应用程序数据的高吞吐量访问
Hadoop YARN:作业调度和资源管理框架
Hadoop MapReduce:基于YARN的大型数据集并行计算处理框架

二、Hadoop产生背景

  • 2003年发表的《GFS》 基于硬盘不够大、数据存储单份的安全隐患问题,提出的分布式文件系统用于存储的理论思想。 · 解决了如何存储大数据集的问题
  • 2004年发表的《MapReduce》 基于分布式文件系统的计算分析的编程框架模型。移动计算而非移动数据,分而治之。 · 解决了如何快速分析大数据集的问题
  • 2006年发表的《BigTable》 针对于传统型关系数据库不适合存储非结构化数据的缺点,提出了另一种适合存储大数据集的解决方案

在这里插入图片描述

三、Hadoop版本

  • Apache Hadoop(社区版):原生的Hadoop、开源、免费、社区活跃,更新速度快,适合学习阶段
  • Cloudera Hadoop(CDH版):最成型的商业发行版本。有免费版和收费版本。版本划分清晰,版本更新速 度快,对生态圈的其他软件做了很好的兼容性,安全性、稳定性都有增强。支持多种安装方式(Cloudera Manager、YUM、RPM、Tarball)
  • Hortonworks Hadoop(HDP):完全开源,安装方便,提供了直观的用户安装界面和配置工具

四、Hadoop生态圈

在这里插入图片描述
重要组件:
HDFS:分布式文件系统
MAPREBUCE:分布式运算程序开发框架
YEARN:任务调度和资源管理系统
HIVE:基于大数据技术的SQL数据仓库工具
HBASE:基于Hadoop的分布式海量数据库
ZOOKEEPER:分布式协调服务,分布式基础组件
OOZIE:工具流调度框架
MAHOUT:基于分布式计算框架的机器学习算法库
FlUME:日志数据采集框架
SPARK。。。。

五、分布式系统

分布式系统是由一组通过网络进行通信,为了完成共同的任务而协调工作的计算机节点组成的系统,分布式系统的出现是为了使用廉价的、普通的基础来完成单个计算机无法完成的计算、存储任务,其目的是利用更多的机器来处理更多的数据。

六、Hadoop的安装

1.本机模式(独立模式)Standalone
特点:运行在单台节点上,没有分布式的思想,使用的是本地文件系统。使用场景:开发、测试、调试

2.伪分布式模式 Pseudo-Distributed

3.全分布式模式Fully-Distributed
将所有的hadoop进程都启动到不同的jvm里,在不同的节点上

监控页面:主机ip:端口号(50070)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值