浅学hedoop

最新推荐文章于 2023-02-05 18:11:13 发布

SmallTenMr

最新推荐文章于 2023-02-05 18:11:13 发布

阅读量390

点赞数

分类专栏：框架

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SmallTenMr/article/details/81661616

版权

框架专栏收录该内容

29 篇文章 0 订阅

订阅专栏

hadoop中有3个核心组件：

分布式文件系统：HDFS —— 实现将文件分布式存储在很多的服务器上

分布式运算编程框架：MapReduce —— 实现在很多机器上分布式并行运算

分布式资源调度平台：Yarn —— 帮用户调度大量的mapreduce程序，并合理分配运算资源

HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算

Hadoop主要组件包含：

Hadoop：Java编写的软件框架，以支持数据密集型分布式应用
ZooKeeper：高可靠性分布式协调系统
MapReduce：针对大数据的灵活的并行数据处理框架
HDFS：Hadoop分布式文件系统
Oozie：负责MapReduce作业调度
HBase：Key-value数据库
Hive：构建在MapRudece之上的数据仓库软件包
Pig：Pig是架构在Hadoop之上的高级数据处理层。Pig Latin语言为编程人员提供了更直观的定制数据流的方法。

HDFS 的工作机制：

客户把一个文件存入hdfs，其实hdfs会把这个文件切块后，分散存储在N台linux机器系统中（负责存储文件块的角色：data node）<准确来说：切块的行为是由客户端决定的>

一旦文件被切块存储，那么，hdfs中就必须有一个机制，来记录用户的每一个文件的切块信息，及每一块的具体存储机器（负责记录块信息的角色是：name node）

3、为了保证数据的安全性，hdfs可以将每一个文件块在集群中存放多个副本（到底存几个副本，是由当时存入该文件的客户端指定的）

综述：一个hdfs系统，由一台运行了namenode的服务器，和N台运行了datanode的服务器组成！

MapReduce：

MapReduce的基本原理就是：将大的数据分析分成小块逐个分析，最后再将提取出来的数据汇总分析，最终获得我们想要的内容。当然怎么分块分析，怎么做Reduce操作非常复杂，Hadoop已经提供了数据分析的实现，我们只需要编写简单的需求命令即可达成我们想要的数据。

Yarn ：

yarn是一个分布式程序的运行调度平台

yarn中有两大核心角色：

Resource Manager

接受用户提交的分布式计算程序，并为其划分资源

管理、监控各个Node Manager上的资源情况，以便于均衡负载

Node Manager

管理它所在机器的运算资源（cpu + 内存）

负责接受Resource Manager分配的任务，创建容器、回收资源

HBASE是一个数据库----可以提供数据的实时随机读写

HBASE与mysql、oralce、db2、sqlserver等关系型数据库不同，它是一个NoSQL数据库（非关系型数据库）

HBASE相比于其他nosql数据库(mongodb、redis、cassendra、hazelcast)的特点：

Hbase的表数据存储在HDFS文件系统中

HBASE是一个分布式系统

其中有一个管理角色： HMaster(一般2台，一台active，一台backup)

其他的数据节点角色： HRegionServer(很多台，看数据容量)

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。