大数据生态技术组件

1、离线查询引擎

pig :数据流式处理 数据仓库系统,基于hadoop的数据流执行引擎,利用mapreduce并行处理数据,使用pig Latin语言表达数据流。

Hive:HiveQL数据仓库系统 是构建在Hadoop之上的数据仓库,用于解决海量结构化的日志数据的统计问题,其语言结构HQL,类似于SQL,但又不完全相同。

Spark SQL:

Presto

Phoenix

Lucene/Solr/Elasticsearch:数据搜索引擎应用

2、实时查询引擎

Impala

shark: spark的前身,目前没有人用了。

druid:

drill:

presto

stinger:已经退市

3、NoSQL

文档数据库:MongoDB

健值数据库:

Redis

DynanoDB

宽列存储数据库:

Cassandra

Hbase

图形数据库:

Neo4j

JanusGraph

4、调度系统

Ooize

AzKaban

AirFlow

dolphinscheduler

5、数据收集

Flume

Logstash

Nifi

Fluented

Chukwa

6、大数据应用统一集平台

cdap

7、集群管理/容器管理

apache mesos

kubernetes

8、Hadoop的应用程序开发平台

cascading

9、数据存储/文件系统

hdfs

hbase 

carbondata

accumulo

数据存储格式:

        orc

        parquet

        avro

10、消息系统

        kafka

        rabbitmq

        rocketmq

        activemq

11、数据同步

        sqoop

        nifi

        datax

        distcp

12、数据血缘

        atlas

        falcon

13、管理系统

        zookeeper

        yarn

        ambari

        cloudera manager

        hue

14、空间数据计算

        gis4Hadoop

        geospark 

        geomesa

15、dag计算

        tez

16、数据处理

        spark 

        spark streaming 

        storm

        批处理

                mapreduce 

                apex

        apex 

17、分析报告

        kylin

        zeppelin

        superset

        cboard

        druid

18、机器学习

        tensorflow

        mahout:Hadoop机器学习算法库提供的算法:分类、聚类、频繁模式挖掘、向量相似度计算、推荐引擎、降维、进化算法、回归分析等

        keras

        theano

        dsstne:提供的算法:分类、聚类、频繁模式挖掘、向量相似度计算、推荐引擎、降维、进化算法、回归分析等

        spark mlib :spark机器学习算法库

        hivemall:Hivemall结合了面向Hive的多种机器学习算法。它包括诸多高度扩展性算法,可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希。

        h2o:H2O是一种分布式的内存处理引擎用于机器学习,它拥有一个令人印象深刻的数组的算法。早期版本仅仅支持R语言,3.0版本开始支持Python和Java语言,同时它也可以作为Spark在后端的执行引擎。使用H2O的最佳方式是把它作为R环境的一个大内存扩展,R环境并不直接作用于大的数据集,而是通过扩展通讯协议例如REST API与H2O集群通讯,H2O来处理大量的数据工作。几个有用的R扩展包,如ddply已经被打包,允许你在处理大规模数据集时,打破本地机器上内存容量的限制。你可以在EC2上运行H2O,或者Hadoop集群/YARN集群,或者Docker容器。用苏打水(Spark+ H2O)你可以访问在集群上并行的访问Spark RDDS,在数据帧被Spark处理后。再传递给一个H2O的机器学习算法。

19、大数据集群安全

        kerberos 

        ranger:安全一直是Hadoop的一个痛处。它不是说(像是经常报道)Hadoop是“不安全”或“不安全”。事实是,Hadoop有很多的安全功能,虽然这些安全功能都不太强大。我的意思是,每一个组件都有它自己的身份验证和授权实施,这与其他的平台没有集成。2015年5月,Hortonworks收购XA /安全,随后经过了改名后,我们有了Ranger。Ranger使得许多Hadoop的关键部件处在一个保护伞下,它允许你设置一个“策略”,把你的Hadoop安全绑定到到您现有的ACL基于活动目录的身份验证和授权体系下。Ranger给你一个地方管理Hadoop的访问控制,通过一个漂亮的页面来做管理、审计、加密。

        sentry 

        knox

20、帐号统一(多租户)

        freeipa

        openldap

        apacheAD

21、图计算

        spark graphx

  

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据生态系统是由多个组件构成的,这些组件相互之间通过数据的传输和处理进行连接,共同实现大数据的处理和分析。其中,hadoop生态系统大数据生态系统中的一个重要组成部分。 hadoop生态系统的鱼骨图主要可以分为以下几个组件: 1. HDFS(Hadoop分布式文件系统):HDFS是hadoop生态系统中的分布式文件系统,它能够将大规模数据存储在集群的各个机器上,并提供高可靠性和高吞吐量的数据访问。 2. MapReduce:MapReduce是hadoop生态系统中的一种编程模型,用于处理大规模数据的并行计算。通过将任务分解为多个子任务,并在分布式环境中进行计算和结果的合并,MapReduce能够高效地处理大数据。 3. YARN(Yet Another Resource Negotiator):YARN是hadoop生态系统中的资源管理和作业调度框架,它负责分配集群中的计算资源,并协调各个作业的执行。YARN的出现使得hadoop生态系统能够同时运行多个并发作业,提高了系统的利用率和效率。 4. HBase:HBase是hadoop生态系统中的分布式非关系型数据库,它基于HDFS构建,具有高可靠性、高可扩展性和高性能的特点。HBase能够存储海量的结构化和半结构化数据,并支持快速的随机读写操作。 5. Hive:Hive是hadoop生态系统中的数据仓库工具,它提供了类似于SQL的查询语言,使得用户可以通过简单的SQL语句来查询和分析存储在hadoop集群中的数据。Hive的优势在于它能够将复杂的查询转化为MapReduce任务,从而实现对大规模数据的高效处理。 总之,hadoop生态系统的鱼骨图展示了其不同组件之间的关系和作用。通过理解和分析这些组件,可以更好地掌握和应用hadoop生态系统,实现对大数据的有效处理和分析。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值