华为大数据平台-FusionInsight介绍

FusionInsight HD是华为开发的完全开放的大数据计算平台,基于开源社区软件进行功能增强,提供实时消息服务、实时事件处理,可运行在任意标准的X86服务器或华为TaiShan服务器上。

FusionInsight HD是一个分布式数据处理系统,对外提供大容量的数据存储、查询和分析能力,可解决各大企业的以下需求:

  • 快速地整合和管理不同类型的大容量数据
  • 对原生形式的信息提供高级分析
  • 可视化所有的可用数据,供特殊分析使用
  • 为构建新的分析应用程序提供了开发环境
  • 工作负荷的优化和调度

官方资料

华为 FusionInsight HD 配置手册、产品文档、PDF - 华为

架构图

组件名

安全模式支持的接口类型

普通模式支持的接口类型

Elasticsearch

JAVA、REST

JAVA、REST

Flink

CLI、JAVA、Scala、REST

CLI、JAVA、Scala、REST

Flume

JAVA

JAVA

GraphBase

CLI、JAVA、REST

CLI、JAVA、REST

HBase

CLI、JAVA、Sqlline、JDBC

CLI、JAVA、Sqlline、JDBC

HDFS

CLI、JAVA、C、REST

CLI、JAVA、C、REST

Hive

CLI、JDBC、ODBC、Python、REST(仅限WebHCat)

CLI、JDBC、Python、REST(仅限WebHCat)

Kafka

CLI、JAVA

CLI、JAVA、Scala

Loader

CLI、REST

CLI、REST

Manager

CLI、SNMP、Syslog、REST

CLI、SNMP、Syslog、REST

Mapreduce

JAVA、REST

JAVA、REST

Oozie

CLI、JAVA、REST

CLI、JAVA、REST

Redis

CLI、JAVA

CLI、JAVA

Solr

CLI、JAVA、REST

CLI、JAVA、REST

Spark

CLI、JAVA、Scala、Python、JDBC、REST

CLI、JAVA、Scala、Python、JDBC、REST

Spark2x

CLI、JAVA、Scala、Python、JDBC、REST

CLI、JAVA、Scala、Python、JDBC、REST

Storm

CLI、JAVA

CLI、JAVA

Yarn

CLI、JAVA、REST

CLI、JAVA、REST

FusionInsight HD对开源组件进行封装和增强,包含Manager和众多组件,分别提供功能如下:

  • DBService

    一个具备高可靠性的传统关系型数据库,为Hive、Hue、Oozie、Loader、Metadata和Redis组件提供元数据存储服务。

  • Elasticsearch

    兼有搜索引擎和NoSQL数据库功能的开源系统,基于JAVA/Lucene构建,开源、分布式、支持RESTful请求。

  • Flink

    一个批处理和流处理结合的统一计算框架,提供数据分发以及并行化计算的流数据处理引擎。

  • Flume

    一个分布式、可靠和高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写入各种数据接受方(可定制)的能力。

  • FTP-Server

    通过通用的FTP客户端、传输协议提供对HDFS文件系统进行基本的操作,例如:文件上传、文件下载、目录查看、目录创建、目录删除、文件权限修改等。

  • GraphBase

    基于HBase和Elasticsearch的分布式图数据库,将数据构建成属性图模型进行存储,提供强大的图查询、分析、遍历能力。

  • HBase

    提供海量数据存储功能,是一种构建在HDFS之上的分布式、面向列的存储系统。

  • HDFS

    Hadoop分布式文件系统(Hadoop Distributed File System),提供高吞吐量的数据访问,适合大规模数据集方面的应用。

  • Hive

    建立在Hadoop基础上的开源的数据仓库,提供类似SQL的Hive Query Language语言操作结构化数据存储服务和基本的数据分析服务。

  • Hue

    提供了FusionInsight HD应用的图形化用户Web界面。Hue支持展示多种组件,目前支持HDFS、Hive、YARN/Mapreduce、Oozie、Solr、ZooKeeper。

  • Kafka

    一个分布式的、分区的、多副本的实时消息发布和订阅系统。提供可扩展、高吞吐、低延迟、高可靠的消息分发服务。

  • Loader

    Loader基于开源Sqoop组件进行了功能增强,实现FusionInsight HD与关系型数据库、文件系统之间交换数据和文件的数据加载工具;同时提供REST API接口,供第三方调度平台调用。

  • Manager

    作为运维系统,为FusionInsight HD提供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁等。

  • Mapreduce

    提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境。

  • Metadata

    为数据仓库类型的组件(Hive和HBase)提供元数据的抽取能力,并且可以人工为每个元数据进行标签设定,用于后向的数据分析、搜索等扩展功能。

  • Oozie

    提供了对开源Hadoop组件的任务编排、执行的功能。以Java Web应用程序的形式运行在Java servlet容器(如:Tomcat)中,并使用数据库来存储工作流定义、当前运行的工作流实例(含实例的状态和变量)。

  • Redis

    一个开源的、高性能的key-value分布式存储数据库,支持丰富的数据类型,弥补了memcached这类key-value存储的不足,满足实时的高并发需求。

  • SmallFS

    提供小文件后台合并功能,能够自动发现系统中的小文件(通过文件大小阈值判断),在闲时进行合并,并把元数据存储到本地的LevelDB中,来降低NameNode压力,同时提供新的FileSystem接口,让用户能够透明的对这些小文件进行访问。

  • Solr

    一个高性能,基于Lucene的全文检索服务器。Solr对Lucene进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文检索引擎。

  • Spark

    基于内存进行计算的分布式计算框架。

    为避免影响后续版本正常升级,Spark组件上的业务应用建议尽快迁移至Spark2x。

  • Spark2x

    基于内存进行计算的分布式计算框架。

  • Storm

    提供分布式、高性能、高可靠、容错的实时计算平台,可以对海量数据进行实时处理。CQL(Continuous Query Language)提供的类SQL流处理语言,可以快速进行业务开发,缩短业务上线时间。

  • Yarn

    资源管理系统,它是一个通用的资源模块,可以为各类应用程序进行资源管理和调度。

  • ZooKeeper

    提供分布式、高可用性的协调服务能力。帮助系统避免单点故障,从而建立可靠的应用程序。

其它参考

华为FusionInsight大数据方案介绍.pptx-原创力文档

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智侠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值