大数据生态技术组件

半_调_子

已于 2022-04-18 10:44:57 修改

阅读量3.2k

点赞数

分类专栏： hive spark 文章标签：大数据

于 2022-04-18 10:41:14 首次发布

本文链接：https://blog.csdn.net/wangjunji34478/article/details/124241862

版权

spark 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

hive

4 篇文章 1 订阅

订阅专栏

1、离线查询引擎

pig ：数据流式处理数据仓库系统，基于hadoop的数据流执行引擎，利用mapreduce并行处理数据，使用pig Latin语言表达数据流。

Hive:HiveQL数据仓库系统是构建在Hadoop之上的数据仓库，用于解决海量结构化的日志数据的统计问题，其语言结构HQL，类似于SQL，但又不完全相同。

Spark SQL:

Presto

Phoenix

Lucene/Solr/Elasticsearch:数据搜索引擎应用

2、实时查询引擎

Impala

shark: spark的前身，目前没有人用了。

druid:

drill:

presto

stinger：已经退市

3、NoSQL

文档数据库：MongoDB

健值数据库：

Redis

DynanoDB

宽列存储数据库：

Cassandra

Hbase

图形数据库：

Neo4j

JanusGraph

4、调度系统

Ooize

AzKaban

AirFlow

dolphinscheduler

5、数据收集

Flume

Logstash

Nifi

Fluented

Chukwa

6、大数据应用统一集平台

cdap

7、集群管理/容器管理

apache mesos

kubernetes

8、Hadoop的应用程序开发平台

cascading

9、数据存储/文件系统

hdfs

hbase

carbondata

accumulo

数据存储格式：

orc

parquet

avro

10、消息系统

kafka

rabbitmq

rocketmq

activemq

11、数据同步

sqoop

nifi

datax

distcp

12、数据血缘

atlas

falcon

13、管理系统

zookeeper

yarn

ambari

cloudera manager

hue

14、空间数据计算

gis4Hadoop

geospark

geomesa

15、dag计算

tez

16、数据处理

spark

spark streaming

storm

批处理

mapreduce

apex

17、分析报告

kylin

zeppelin

superset

cboard

druid

18、机器学习

tensorflow

mahout：Hadoop机器学习算法库提供的算法：分类、聚类、频繁模式挖掘、向量相似度计算、推荐引擎、降维、进化算法、回归分析等

keras

theano

dsstne：提供的算法：分类、聚类、频繁模式挖掘、向量相似度计算、推荐引擎、降维、进化算法、回归分析等

spark mlib ：spark机器学习算法库

hivemall：Hivemall结合了面向Hive的多种机器学习算法。它包括诸多高度扩展性算法，可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希。

h2o：H2O是一种分布式的内存处理引擎用于机器学习，它拥有一个令人印象深刻的数组的算法。早期版本仅仅支持R语言，3.0版本开始支持Python和Java语言，同时它也可以作为Spark在后端的执行引擎。使用H2O的最佳方式是把它作为R环境的一个大内存扩展，R环境并不直接作用于大的数据集，而是通过扩展通讯协议例如REST API与H2O集群通讯，H2O来处理大量的数据工作。几个有用的R扩展包，如ddply已经被打包，允许你在处理大规模数据集时，打破本地机器上内存容量的限制。你可以在EC2上运行H2O，或者Hadoop集群/YARN集群，或者Docker容器。用苏打水（Spark+ H2O）你可以访问在集群上并行的访问Spark RDDS，在数据帧被Spark处理后。再传递给一个H2O的机器学习算法。

19、大数据集群安全

kerberos

ranger：安全一直是Hadoop的一个痛处。它不是说（像是经常报道）Hadoop是“不安全”或“不安全”。事实是，Hadoop有很多的安全功能，虽然这些安全功能都不太强大。我的意思是，每一个组件都有它自己的身份验证和授权实施，这与其他的平台没有集成。2015年5月，Hortonworks收购XA /安全，随后经过了改名后，我们有了Ranger。Ranger使得许多Hadoop的关键部件处在一个保护伞下，它允许你设置一个“策略”，把你的Hadoop安全绑定到到您现有的ACL基于活动目录的身份验证和授权体系下。Ranger给你一个地方管理Hadoop的访问控制，通过一个漂亮的页面来做管理、审计、加密。

sentry

knox

20、帐号统一（多租户）

freeipa

openldap

apacheAD

21、图计算

spark graphx

半_调_子

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大数据生态技术组件

1、离线查询引擎pig ：数据流式处理数据仓库系统，基于hadoop的数据流执行引擎，利用mapreduce并行处理数据，使用pig Latin语言表达数据流。Hive:HiveQL数据仓库系统是构建在Hadoop之上的数据仓库，用于解决海量结构化的日志数据的统计问题，其语言结构HQL，类似于SQL，但又不完全相同。Spark SQL:PhoenixLucene/Solr/Elasticsearch:数据搜索引擎应用2、实时查询引擎Impalashark: spark的前
复制链接

扫一扫