＜Zhuuu_ZZ＞大数据及Hadoop生态系统

Zhuuu_ZZ

于 2020-09-09 18:33:33 发布

阅读量438

点赞数 3

分类专栏： Hadoop 文章标签：分布式计算 hadoop 大数据 hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Zhuuu_ZZ/article/details/108493929

版权

Hadoop 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

大数据及Hadoop生态系统

一.大数据
- 1.概念
- 2.大数据特征：
二.Hadoop
三.Hadoop生态系统
四.HDFS

一.大数据

1.概念

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
在这里插入图片描述

2.大数据特征：

4V特征

Volume(大数据量)：90% 的数据是过去两年产生
Velocity(速度快)：数据增长速度快，时效性高
Variety(多样化)：数据种类和来源多样化
结构化数据、半结构化数据、非结构化数据
Value(价值密度低)：需挖掘获取数据价值
固有特征
时效性
不可变性

二.Hadoop

1.分布式计算

分布式计算将较大的数据分成小的部分进行处理。
在这里插入图片描述

2.hadoop概念

Hadoop是一个开源分布式系统架构
分布式文件系统HDFS——解决大数据存储
分布式计算框架MapReduce——解决大数据计算
分布式资源管理系统YARN
处理海量数据的架构首选
非常快得完成大数据计算任务
已发展成为一个Hadoop生态圈

3.hadoop版本

Hadoop起源于搜索引擎Apache Nutch
- 创始人：Doug Cutting
- 2004年 - 最初版本实施
- 2008年 - 成为Apache顶级项目
Hadoop发行版本
- 社区版：Apache Hadoop
- Cloudera发行版：CDH
- Hortonworks发行版：HDP

4.为什么使用hadoop

高扩展性，可伸缩
高可靠性
- 多副本机制，容错高
低成本
无共享架构
灵活，可存储任意类型数据
开源，社区活跃

5.Hadoop vs RDBMS

在这里插入图片描述

三.Hadoop生态系统

Hadoop核心：HDFS MapReaduce Yarn Common Core
数据查询分析：Hive Pig Impala Presto
协调管理：HCatalog Zookeeper Ambari
数据迁移：Sqoop Flume(实时的)
Spark NOSQL 机器学习任务调度

四.HDFS

1.HDFS角色

Client：客户端
NameNode (NN)：元数据节点
- 管理文件系统的Namespace/元数据
- 一个HDFS集群只有一个Active的NN
DataNode (DN)：数据节点
- 数据存储节点，保存和检索Block
- 一个集群可以有多个数据节点
Secondary NameNode (SNN)：从元数据节点
- 合并NameNode的edit logs到fsimage文件中
- 辅助NN将内存中元数据信息持久化

2.HDFS架构

在这里插入图片描述

3.HDFS高可用

在1.x版本中
- 存在Namenode单点问题
在2.x版本中
- 解决：HDFS Federation方式，共享DN资源
- Active Namenode
  - 对外提供服务
- Standby Namenode
  - Active故障时可切换为Active

4.HDFS副本机制

Block：数据块
- HDFS最基本的存储单元
- 默认块大小：128M（2.x）
副本机制
- 作用：避免数据丢失
- 副本数默认为3
- 存放机制：
  - 一个在本地机架节点
  - 一个在同一个机架不同节点
  - 一个在不同机架的节点

5.HDFS读文件

在这里插入图片描述

6.HDFS写文件

在这里插入图片描述

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
＜Zhuuu_ZZ＞大数据及Hadoop生态系统

大数据及Hadoop生态系统一.大数据1.概念2.大数据特征：二.Hadoop1.分布式计算2.hadoop概念3.hadoop版本4.为什么使用hadoop5.Hadoop vs RDBMS三.Hadoop生态系统四.HDFS1.HDFS角色2.HDFS架构3.HDFS高可用4.HDFS副本机制5.HDFS读文件6.HDFS写文件一.大数据1.概念大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。2.大数据特征：4V特征Volume(大数据量)：90% 的数
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。