1、离线查询引擎
pig :数据流式处理 数据仓库系统,基于hadoop的数据流执行引擎,利用mapreduce并行处理数据,使用pig Latin语言表达数据流。
Hive:HiveQL数据仓库系统 是构建在Hadoop之上的数据仓库,用于解决海量结构化的日志数据的统计问题,其语言结构HQL,类似于SQL,但又不完全相同。
Spark SQL:
Presto
Phoenix
Lucene/Solr/Elasticsearch:数据搜索引擎应用
2、实时查询引擎
Impala
shark: spark的前身,目前没有人用了。
druid:
drill:
presto
stinger:已经退市
3、NoSQL
文档数据库:MongoDB
健值数据库:
Redis
DynanoDB
宽列存储数据库:
Cassandra
Hbase
图形数据库:
Neo4j
JanusGraph
4、调度系统
Ooize
AzKaban
AirFlow
dolphinscheduler
5、数据收集
Flume
Logstash
Nifi
Fluented
Chukwa
6、大数据应用统一集平台
cdap
7、集群管理/容器管理
apache mesos
kubernetes
8、Hadoop的应用程序开发平台
cascading
9、数据存储/文件系统
hdfs
hbase
carbondata
accumulo
数据存储格式:
orc
parquet
avro
10、消息系统
kafka
rabbitmq
rocketmq
activemq
11、数据同步
sqoop
nifi
datax
distcp
12、数据血缘
atlas
falcon
13、管理系统
zookeeper
yarn
ambari
cloudera manager
hue
14、空间数据计算
gis4Hadoop
geospark
geomesa
15、dag计算
tez
16、数据处理
spark
spark streaming
storm
批处理
mapreduce
apex
apex
17、分析报告
kylin
zeppelin
superset
cboard
druid
18、机器学习
tensorflow
mahout:Hadoop机器学习算法库提供的算法:分类、聚类、频繁模式挖掘、向量相似度计算、推荐引擎、降维、进化算法、回归分析等
keras
theano
dsstne:提供的算法:分类、聚类、频繁模式挖掘、向量相似度计算、推荐引擎、降维、进化算法、回归分析等
spark mlib :spark机器学习算法库
hivemall:Hivemall结合了面向Hive的多种机器学习算法。它包括诸多高度扩展性算法,可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希。
h2o:H2O是一种分布式的内存处理引擎用于机器学习,它拥有一个令人印象深刻的数组的算法。早期版本仅仅支持R语言,3.0版本开始支持Python和Java语言,同时它也可以作为Spark在后端的执行引擎。使用H2O的最佳方式是把它作为R环境的一个大内存扩展,R环境并不直接作用于大的数据集,而是通过扩展通讯协议例如REST API与H2O集群通讯,H2O来处理大量的数据工作。几个有用的R扩展包,如ddply已经被打包,允许你在处理大规模数据集时,打破本地机器上内存容量的限制。你可以在EC2上运行H2O,或者Hadoop集群/YARN集群,或者Docker容器。用苏打水(Spark+ H2O)你可以访问在集群上并行的访问Spark RDDS,在数据帧被Spark处理后。再传递给一个H2O的机器学习算法。
19、大数据集群安全
kerberos
ranger:安全一直是Hadoop的一个痛处。它不是说(像是经常报道)Hadoop是“不安全”或“不安全”。事实是,Hadoop有很多的安全功能,虽然这些安全功能都不太强大。我的意思是,每一个组件都有它自己的身份验证和授权实施,这与其他的平台没有集成。2015年5月,Hortonworks收购XA /安全,随后经过了改名后,我们有了Ranger。Ranger使得许多Hadoop的关键部件处在一个保护伞下,它允许你设置一个“策略”,把你的Hadoop安全绑定到到您现有的ACL基于活动目录的身份验证和授权体系下。Ranger给你一个地方管理Hadoop的访问控制,通过一个漂亮的页面来做管理、审计、加密。
sentry
knox
20、帐号统一(多租户)
freeipa
openldap
apacheAD
21、图计算
spark graphx