hadoop生态圈-CSDN博客

本文链接：https://blog.csdn.net/andilyliao/article/details/84714031

分布式文件系统：
HDFS（可计算资源仓库）、mooseFS、fastDFS+nginx（115网盘）、riak、GlusterFS（intel hbase发行版）

分布式爬虫：
Nutch、httpclient

计算框架：
MapReduce：
hadoop的mapreduce（依托于hadoop、适合于100T以上计算）
mongodb

DAG：
hadoop2的Tez框架（hive on hadoop2支持tez框架，TB以上）
spark：（依托于rdd，GB以上，窄依赖最佳）

Graph图计算：
Giraph、graphX（spark）
neo4j（不支持分布式）

MPI：
HAMA
openmpi

流计算：
storm、spark streaming（小批量流）

日志收集：
chukwa
flume
Scribe

数据导入：
Hiho, sqoop

newsql：
Pig, Hive、Phoenix
spark on sql-->前身是shark（处理java程序统计数据困难）
impala、drill

数据处理流：
oozie, Cascading

监控工具：
ganglia，nagos，zabbix，ambari

高一致性：
zookeeper、bookeeper

大表（大磁盘缓存、避免sql等运算出结果）（nosql）：
hbase、Cassandra

k，v库（nosql）：
redis、memcached、leveldb（SSD磁盘）

文档库（nosql）：
couchdb、mongodb

简单的web框架：h5+node.js+mongodb

机器学习：
mahout、mlib（spark）、R（Rhadoop，Rspark）、weka

消息队列：
activemq、rabbitmq、qpid、kafka、hedwig，redis，memcacheq

ETL：
kettle

分布式搜索：
solr（web）、elasticsearch