华为大数据平台-FusionInsight介绍

源图客

于 2024-08-01 17:01:41 发布

阅读量1.6k

点赞数 4

分类专栏：大数据文章标签：大数据平台

本文链接：https://blog.csdn.net/taogumo/article/details/140852353

版权

大数据专栏收录该内容

14 篇文章

订阅专栏

FusionInsight HD是华为开发的完全开放的大数据计算平台，基于开源社区软件进行功能增强，提供实时消息服务、实时事件处理，可运行在任意标准的X86服务器或华为TaiShan服务器上。

FusionInsight HD是一个分布式数据处理系统，对外提供大容量的数据存储、查询和分析能力，可解决各大企业的以下需求：

快速地整合和管理不同类型的大容量数据
对原生形式的信息提供高级分析
可视化所有的可用数据，供特殊分析使用
为构建新的分析应用程序提供了开发环境
工作负荷的优化和调度

官方资料

华为 FusionInsight HD 配置手册、产品文档、PDF - 华为

架构图

组件名	安全模式支持的接口类型	普通模式支持的接口类型
Elasticsearch	JAVA、REST	JAVA、REST
Flink	CLI、JAVA、Scala、REST	CLI、JAVA、Scala、REST
Flume	JAVA	JAVA
GraphBase	CLI、JAVA、REST	CLI、JAVA、REST
HBase	CLI、JAVA、Sqlline、JDBC	CLI、JAVA、Sqlline、JDBC
HDFS	CLI、JAVA、C、REST	CLI、JAVA、C、REST
Hive	CLI、JDBC、ODBC、Python、REST（仅限WebHCat）	CLI、JDBC、Python、REST（仅限WebHCat）
Kafka	CLI、JAVA	CLI、JAVA、Scala
Loader	CLI、REST	CLI、REST
Manager	CLI、SNMP、Syslog、REST	CLI、SNMP、Syslog、REST
Mapreduce	JAVA、REST	JAVA、REST
Oozie	CLI、JAVA、REST	CLI、JAVA、REST
Redis	CLI、JAVA	CLI、JAVA
Solr	CLI、JAVA、REST	CLI、JAVA、REST
Spark	CLI、JAVA、Scala、Python、JDBC、REST	CLI、JAVA、Scala、Python、JDBC、REST
Spark2x	CLI、JAVA、Scala、Python、JDBC、REST	CLI、JAVA、Scala、Python、JDBC、REST
Storm	CLI、JAVA	CLI、JAVA
Yarn	CLI、JAVA、REST	CLI、JAVA、REST

FusionInsight HD对开源组件进行封装和增强，包含Manager和众多组件，分别提供功能如下：

DBService
一个具备高可靠性的传统关系型数据库，为Hive、Hue、Oozie、Loader、Metadata和Redis组件提供元数据存储服务。

Elasticsearch
兼有搜索引擎和NoSQL数据库功能的开源系统，基于JAVA/Lucene构建，开源、分布式、支持RESTful请求。

Flink
一个批处理和流处理结合的统一计算框架，提供数据分发以及并行化计算的流数据处理引擎。
Flume
一个分布式、可靠和高可用的海量日志聚合系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写入各种数据接受方（可定制）的能力。

FTP-Server
通过通用的FTP客户端、传输协议提供对HDFS文件系统进行基本的操作，例如：文件上传、文件下载、目录查看、目录创建、目录删除、文件权限修改等。

GraphBase
基于HBase和Elasticsearch的分布式图数据库，将数据构建成属性图模型进行存储，提供强大的图查询、分析、遍历能力。

HBase
提供海量数据存储功能，是一种构建在HDFS之上的分布式、面向列的存储系统。
HDFS
Hadoop分布式文件系统（Hadoop Distributed File System），提供高吞吐量的数据访问，适合大规模数据集方面的应用。
Hive
建立在Hadoop基础上的开源的数据仓库，提供类似SQL的Hive Query Language语言操作结构化数据存储服务和基本的数据分析服务。
Hue
提供了FusionInsight HD应用的图形化用户Web界面。Hue支持展示多种组件，目前支持HDFS、Hive、YARN/Mapreduce、Oozie、Solr、ZooKeeper。

Kafka
一个分布式的、分区的、多副本的实时消息发布和订阅系统。提供可扩展、高吞吐、低延迟、高可靠的消息分发服务。
Loader
Loader基于开源Sqoop组件进行了功能增强，实现FusionInsight HD与关系型数据库、文件系统之间交换数据和文件的数据加载工具；同时提供REST API接口，供第三方调度平台调用。

Manager
作为运维系统，为FusionInsight HD提供高可靠、安全、容错、易用的集群管理能力，支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁等。
Mapreduce
提供快速并行处理大量数据的能力，是一种分布式数据处理模式和执行环境。
Metadata
为数据仓库类型的组件（Hive和HBase）提供元数据的抽取能力，并且可以人工为每个元数据进行标签设定，用于后向的数据分析、搜索等扩展功能。
Oozie
提供了对开源Hadoop组件的任务编排、执行的功能。以Java Web应用程序的形式运行在Java servlet容器（如：Tomcat）中，并使用数据库来存储工作流定义、当前运行的工作流实例（含实例的状态和变量）。
Redis
一个开源的、高性能的key-value分布式存储数据库，支持丰富的数据类型，弥补了memcached这类key-value存储的不足，满足实时的高并发需求。
SmallFS
提供小文件后台合并功能，能够自动发现系统中的小文件（通过文件大小阈值判断），在闲时进行合并，并把元数据存储到本地的LevelDB中，来降低NameNode压力，同时提供新的FileSystem接口，让用户能够透明的对这些小文件进行访问。
Solr
一个高性能，基于Lucene的全文检索服务器。Solr对Lucene进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展，并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文检索引擎。
Spark
基于内存进行计算的分布式计算框架。

为避免影响后续版本正常升级，Spark组件上的业务应用建议尽快迁移至Spark2x。
Spark2x
基于内存进行计算的分布式计算框架。
Storm
提供分布式、高性能、高可靠、容错的实时计算平台，可以对海量数据进行实时处理。CQL（Continuous Query Language）提供的类SQL流处理语言，可以快速进行业务开发，缩短业务上线时间。
Yarn
资源管理系统，它是一个通用的资源模块，可以为各类应用程序进行资源管理和调度。
ZooKeeper
提供分布式、高可用性的协调服务能力。帮助系统避免单点故障，从而建立可靠的应用程序。