华为MRS产品组件

最新推荐文章于 2025-03-06 23:21:31 发布

原创最新推荐文章于 2025-03-06 23:21:31 发布

· 2.6k 阅读

32 ·

版权

文章标签：

#hadoop #hive #大数据 #数据库架构 #gaussdb

MRS：MRS是一个在华为云上部署和管理Hadoop系统的服务，一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务（全栈大数据平台），轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。
集群管理：使用MRS的首要操作就是购买集群，MRS的扩容不论在存储还是计算能力上，都可以简单地通过增加Core节点或者Task节点来完成。集群Core节点不仅可以处理数据，也可以存储数据。集群Task节点主要用于处理数据，不存放持久数据。
文件管理：文件管理用于集群运维，包括文件夹创建、删除，文件导入、导出、删除操作。MRS集群处理的数据源来源于OBS或HDFS，OBS即对象存储。
作业管理：MRS作业是MRS为用户提供的程序执行平台，用于处理和分析用户数据。作业创建完成后，所有的作业列表信息展示在“作业管理”页面中，您可以查看所有的作业列表，也可以创建和管理作业。目前MRS集群支持创建和管理如下几种类型的作业：MapReduce、Spark、Hive、Flink、HadoopStreaming作业。
用户权限管理：MRS通过对接IAM（身份和访问管理）服务，达到不同员工之间的权限隔离。
存算分离：MRS支持用户将数据存储在OBS服务中，使用MRS集群仅做数据计算处理的存算模式。

大数据组件分类：

集成：CDL（实时数据集成）、Flume（实时数据/日志采集)、Kafka（消息发布－订阅工具/数据收集）、Loader（加载器文件类型转换器）。
存储：Kudu（随机读写存储）、CarbonData（大规模列存储）、ClickHouse（列式数据库）、OpenTSDB（时间序列数据库）、DBService（存储元数据的关系型数据库）、Hive（数仓基础框架）、Doris（实时数仓）、IoTDB（物联网数据库）。

支持非结构化：HBase（的实时的存储系统)、HDFS（分布式文件系统）、Hudi（数据湖）、Alluxio（存算之间的缓冲区）。
计算：MapReduce、Spark（mr_plus，批流图内存计算）、Tez（内存计算）这仨是hive的引擎。Storm（实时流处理）。Flink（流计算）
查询：Impala（查询工具）、Presto（SQL查询引擎）、HetuEngine（华为自研查询引擎）。
调度：Oozie（任务调度框架）、YARN（资源管理系统）。
运维：Ranger（安全管理框架-BMS）、ZooKeeper（分布式协调系统）。

集成：

CDL————实时数据集成

CDL（全称Change Data Loader）是一个基于Kafka Connect框架的实时数据集成服务。 CDL服务能够从各种OLTP数据库中捕获数据库的Data Change事件，并推送到kafka，再由sink connector推送到大数据生态系统中。

Flume———日志采集

Flume是一个高可用、高可靠，分布式的海量日志采集、聚合和传输的系统。

Kafka———消息发布－订阅工具/数据收集

Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统，它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性，适用于离线和在线的消息消费，如常规的消息收集、网站活性跟踪、运营数据监控、日志收集等大量数据的互联网服务的数据收集场景。

Loader加载器———文件类型转换器

Loader是在开源Sqoop组件的基础上进行了一些扩展，实现MRS与关系型数据库、文件系统之间交换“数据”、“文件”，同时也可以将数据从关系型数据库或者文件服务器导入到MRS的HDFS/HBase中，或者反过来从HDFS/HBase导出到关系型数据库或者文件服务器中。

webpack是用于资源打包的，里面的所有资源都是“模块”，内部实现了对模块资源进行加载的机制。但是Webpack本身只能处理 js模块，如果要处理其他类型的文件，就需要使用 loader 进行转换。Loader 可以理解为是模块和资源的转换器，它本身是一个函数，接受源文件作为参数，返回转换的结果。

存储：

CarbonData———大规模列存储

CarbonData是一种新型的Apache Hadoop本地文件格式，使用先进的列式存储、索引、压缩和编码技术。目的是对大数据即席查询提供超快速响应。户可将大量（10TB以上）的数据导入到以CarbonData格式创建的表中。

ClickHouse———列式数据库

ClickHouse是面向OLAP的列式数据库，其独立于Hadoop大数据体系，最核心的特点是压缩率和极速查询性能，支持SQL查询且查询性能好，特别是基于大宽表的聚合分析查询性能非常优异，比其他分析型数据库速度快一个数量级。

OpenTSDB——时间序列数据库

OpenTSDB是一个基于HBase的分布式、可伸缩的时间序列数据库。OpenTSDB的设计目标是用来采集大规模集群中的监控类信息，并可实现数据的秒级查询，解决海量监控类数据在普通数据库中查询存储的局限性。

DBService——存储元数据的关系型数据库

DBService是一个具备高可靠性的传统关系型数据库，为Hive、Hue、Oozie、Loader、Metadata和Redis组件提供元数据存储服务。并由DBService提供这些元数据的备份与恢复功能。

Doris———实时的分析型数据库

Doris是一个基于MPP架构的高性能、实时的分析型数据库，不仅可以支持高并发的点查询场景，也能支持高吞吐的复杂分析场景。基于此，Apache Doris能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景，用户可以在此之上构建用户行为分析、AB实验平台、日志检索分析、用户画像分析、订单分析等应用。

HBase———非结构半结构的、实时的分布式存储系统。

HBase是一个开源的、面向列（Column-Oriented）、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。MRS服务的HBase组件支持计算存储分离。

HDFS———分布式文件系统

HDFS是Hadoop的分布式文件系统（Hadoop Distributed File System），实现大规模数据可靠的分布式读写。HDFS保证一个文件在一个时刻只被一个调用者执行写操作，而可以被多个调用者执行读操作。

Kudu——支持随机读写的大数据存储引擎，

Kudu是一个既支持随机读写、又支持 OLAP 分析的大数据存储引擎。KUDU 是一个折中的产品，在 HDFS 和 HBase 这两个偏科生中平衡了随机读写和批量分析的性能。HDFS和Hbase之间。相比HBase，kudu降低写的性能，提升了批量扫描数据的性能。

Hue———大数据组件管理Web界面

Hue提供了一个统一的Web界面，允许用户在一个平台上管理多个大数据组件，如HDFS、HBase、Hive等。避免用户需要在不同组件的Web界面之间来回切换的繁琐操作。允许用户直接通过界面浏览HDFS的不同目录。支持创建复杂的工作流，将多个大数据任务组合在一起，实现自动化处理。支持编写简单的SQL查询，查询存储在Hadoop之上的数据。允许用户监控正在运行的大数据任务的状态和进度。

Alluxio———处于存算之间，类似于计算机的缓冲区（buffer）

Alluxio是一个面向基于云的数据分析和人工智能的数据编排　技术。在MRS的大数据生态系统中，Alluxio位于计算和存储之间，为包括Apache Spark、Presto、Mapreduce 和Apache Hive的计算框架提供了数据抽象层，使上层的计算应用可以通过统一的客户端API和全局命名空间访问包括HDFS和OBS在内的持久化存储系统，从而实现了对计算和存储的分离。

Hive———数仓基础框架

Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言，称为HiveQL，它允许熟悉SQL的用户查询数据。Hive的数据计算依赖于MapReduce、Spark、Tez。

Hudi———数据湖

Hudi是一种数据湖的存储格式，在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。支持多种计算引擎，提供IUD接口，在HDFS的数据集上提供了插入更新和增量拉取的流原语。

IoTDB———物联网数据库

IoTDB（物联网数据库）是一体化收集、存储、管理与分析物联网时序数据的软件系统。 Apache IoTDB采用轻量式架构，具有高性能和丰富的功能。IoTDB从存储上对时间序列进行排序，索引和chunk块存储，大大的提升时序数据的查询性能。通过Raft协议，来确保数据的一致性。

计算：

MapReduce

MapReduce是Hadoop的核心，是Google提出的一个软件架构，用于大规模数据集（大于1TB）的并行运算。

Tez组件———图计算源于mapreduce框架。

Tez是支持DAG作业的开源计算框架，它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。Tez构建在YARN之上，能够不需要做任何改动地运行MR任务。MRS将Tez作为Hive的默认执行引擎，执行效率远远超过原先的Mapreduce的计算引擎。

Spark————处理框架

Spark是MapReduce的替代方案，1.处理速度快、通用性强、兼容性强。1.与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。2.Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。3.方便与其他开源软件融合，可融入Hadoop的生态系统，
Spark包含GraphX组件，这是Spark用于图计算的API和库。

Storm———流处理

Apache Storm是一个分布式、可靠、容错的实时流式数据处理的系统。在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑（topology）。这个拓扑将会被提交给集群，由集群中的主控节点（master node）分发代码，将任务分配给工作节点（worker node）执行。

Flink———顶级流处理引擎——支持批流融合

其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理，是业界最顶级的开源流处理引擎。Flink最适合的应用场景是低时延的数据处理（Data Processing）场景。

查询：

Impala———查询工具

Impala直接对存储在HDFS，HBase 或对象存储服务（OBS）中的Hadoop数据提供快速，交互式SQL查询。这为实时或面向批处理的查询提供了一个熟悉且统一的平台。作为查询大数据的工具的补充，Impala不会替代基于MapReduce构建的批处理框架，例如Hive。基于MapReduce构建的Hive和其他框架最适合长时间运行的批处理作业。Impala默认利用HDFS作为其文件存储系统。

Presto———SQL查询引擎

Presto是一个开源的用户交互式分析查询的SQL查询引擎，用于针对各种大小的数据源进行交互式分析查询。其主要应用于海量结构化数据/半结构化数据分析、海量多维数据聚合/报表、ETL、Ad-Hoc查询等场景。Presto允许查询的数据源包括Hadoop分布式文件系统（HDFS），Hive，HBase，Cassandra，关系数据库甚至专有数据存储。一个Presto查询可以组合不同数据源，执行跨数据源的数据分析。

HetuEngine———查询引擎

HetuEngine是华为自研高性能交互式SQL分析及数据虚拟化引擎。与大数据生态无缝融合，实现海量数据秒级交互式查询；支持跨源跨域统一访问，使能数据湖内、湖间、湖仓一站式SQL融合分析。

运维调度：

YARN———资源管理系统

KafkaManager———Kafka的管理工具

KafkaManager是Apache Kafka的管理工具，提供Kafka集群界面化的Metric监控和集群管理。

Oozie——任务调度框架

大数据四大协作框架：任务调度框架Oozie，数据转换工具Sqoop，文件收集库框架Flume，大数据WEB工具Hue它能够提供对Hadoop MapReduce和Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。功能相似的任务调度框架还有Azkaban和Zeus。

Ranger组件———安全管理框架

Apache Ranger提供一个集中式安全管理框架，并解决授权和审计。它可以对整个Hadoop生态中如HDFS、Hive、HBase、Kafka、Storm等进行细粒度的数据访问控制。用户可以利用Ranger提供的前端WebUI控制台通过配置相关策略来控制用户对这些组件的访问权限。Ranger组件当前不支持开启Kerberos认证。