FusionInsight HD是华为开发的完全开放的大数据计算平台,基于开源社区软件进行功能增强,提供实时消息服务、实时事件处理,可运行在任意标准的X86服务器或华为TaiShan服务器上。
FusionInsight HD是一个分布式数据处理系统,对外提供大容量的数据存储、查询和分析能力,可解决各大企业的以下需求:
- 快速地整合和管理不同类型的大容量数据
- 对原生形式的信息提供高级分析
- 可视化所有的可用数据,供特殊分析使用
- 为构建新的分析应用程序提供了开发环境
- 工作负荷的优化和调度
官方资料
华为 FusionInsight HD 配置手册、产品文档、PDF - 华为
架构图
组件名 | 安全模式支持的接口类型 | 普通模式支持的接口类型 |
---|---|---|
Elasticsearch | JAVA、REST | JAVA、REST |
Flink | CLI、JAVA、Scala、REST | CLI、JAVA、Scala、REST |
Flume | JAVA | JAVA |
GraphBase | CLI、JAVA、REST | CLI、JAVA、REST |
HBase | CLI、JAVA、Sqlline、JDBC | CLI、JAVA、Sqlline、JDBC |
HDFS | CLI、JAVA、C、REST | CLI、JAVA、C、REST |
Hive | CLI、JDBC、ODBC、Python、REST(仅限WebHCat) | CLI、JDBC、Python、REST(仅限WebHCat) |
Kafka | CLI、JAVA | CLI、JAVA、Scala |
Loader | CLI、REST | CLI、REST |
Manager | CLI、SNMP、Syslog、REST | CLI、SNMP、Syslog、REST |
Mapreduce | JAVA、REST | JAVA、REST |
Oozie | CLI、JAVA、REST | CLI、JAVA、REST |
Redis | CLI、JAVA | CLI、JAVA |
Solr | CLI、JAVA、REST | CLI、JAVA、REST |
Spark | CLI、JAVA、Scala、Python、JDBC、REST | CLI、JAVA、Scala、Python、JDBC、REST |
Spark2x | CLI、JAVA、Scala、Python、JDBC、REST | CLI、JAVA、Scala、Python、JDBC、REST |
Storm | CLI、JAVA | CLI、JAVA |
Yarn | CLI、JAVA、REST | CLI、JAVA、REST |
FusionInsight HD对开源组件进行封装和增强,包含Manager和众多组件,分别提供功能如下:
- HBase
- HDFS
Hadoop分布式文件系统(Hadoop Distributed File System),提供高吞吐量的数据访问,适合大规模数据集方面的应用。
- Hive
建立在Hadoop基础上的开源的数据仓库,提供类似SQL的Hive Query Language语言操作结构化数据存储服务和基本的数据分析服务。
- Hue
提供了FusionInsight HD应用的图形化用户Web界面。Hue支持展示多种组件,目前支持HDFS、Hive、YARN/Mapreduce、Oozie、Solr、ZooKeeper。
- Kafka
- Loader
Loader基于开源Sqoop组件进行了功能增强,实现FusionInsight HD与关系型数据库、文件系统之间交换数据和文件的数据加载工具;同时提供REST API接口,供第三方调度平台调用。
- Manager
作为运维系统,为FusionInsight HD提供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁等。
- Mapreduce
- Metadata
为数据仓库类型的组件(Hive和HBase)提供元数据的抽取能力,并且可以人工为每个元数据进行标签设定,用于后向的数据分析、搜索等扩展功能。
- Oozie
提供了对开源Hadoop组件的任务编排、执行的功能。以Java Web应用程序的形式运行在Java servlet容器(如:Tomcat)中,并使用数据库来存储工作流定义、当前运行的工作流实例(含实例的状态和变量)。
- Redis
一个开源的、高性能的key-value分布式存储数据库,支持丰富的数据类型,弥补了memcached这类key-value存储的不足,满足实时的高并发需求。
- SmallFS
提供小文件后台合并功能,能够自动发现系统中的小文件(通过文件大小阈值判断),在闲时进行合并,并把元数据存储到本地的LevelDB中,来降低NameNode压力,同时提供新的FileSystem接口,让用户能够透明的对这些小文件进行访问。
- Solr
一个高性能,基于Lucene的全文检索服务器。Solr对Lucene进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文检索引擎。
- Spark
为避免影响后续版本正常升级,Spark组件上的业务应用建议尽快迁移至Spark2x。
- Spark2x
- Storm
提供分布式、高性能、高可靠、容错的实时计算平台,可以对海量数据进行实时处理。CQL(Continuous Query Language)提供的类SQL流处理语言,可以快速进行业务开发,缩短业务上线时间。
- Yarn
- ZooKeeper