大数据入门

最新推荐文章于 2023-06-14 13:39:38 发布

tom和cat

最新推荐文章于 2023-06-14 13:39:38 发布

阅读量229

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/sinat_32023305/article/details/114669884

版权

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

大数据概念基本介绍

Hadoop介绍

Hadoop是一个基于java开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop包括一系列的类shell的命令，可直接操作HDFS以及其他Hadoop支持的文件系统（官方链接：https://hadoop.apache.org/docs/r1.0.4/cn/commands_manual.html）

下图为Hadoop生态圈的一些组件

hadoop生态系统

Hadoop的核心是MapReduce,YARN和HDFS。

（1）HDFS分布式文件存储：

随着数据量的不断增大，文件的大小取决于单机存储的上限，这显然满足不了我们的需求。HDFS将大文件切块，部署到不同的机器节点上，完成分布式存储。

注：名称节点NameNode：主节点（Master）；数据节点DataNode：从节点（Slave）

（2）YARN资源调度和管理：

YARN可以实现HADOOP集群的资源共享，不仅仅可以跑MapRedcue，还可以跑Spark、Flink。YARN支持主从架构，主节点最多可以有2个，从节点可以有多个。其中：ResourceManager：是主节点，主要负责集群资源的分配和管理，NodeManager：是从节点，主要负责当前机器资源管理

（3）MapReduce分布式计算：

解决海量数据的计算问题。MapReduce是分布式运行的，由两个阶段组成：Map和Reduce，Map阶段和Reduce阶段都是一个独立的程序，有很多个节点同时运行，每个节点处理一部分数据。每个阶段的输入输出都是key-value的形式，key和value的类型可以自行指定。map阶段对切分好的数据进行并行处理，处理结果传输给reduce，由reduce函数完成最后的汇总。

（4）Hbase介绍

基于分布式文件系统上面建立的数据库，HBase是面向列的开源数据库。

rowkey：Rowkey的概念和mysql中的主键相似，Hbase使用Rowkey来唯一的区分某一行的数据，基于字典序排序；

region：和MySQL的分区或者分片差不多，Hbase会将一个大表的数据基于Rowkey的不同范围分配到不通的Region中，每个Region负责一定范围的数据访问和存储；

timestamp：timestamp对Hbase来说至关重要，因为它是实现Hbase多版本的关键，在写入数据的时候，如果用户没有指定对应的timestamp，Hbase会自动添加一个timestamp，timestamp和服务器时间保持一致。相同rowkey的数据按照timestamp倒序排列，默认查询的是最新的版本，可以指定timestamp的值来读取旧版本的数据。