分布式文件系统:
HDFS(可计算资源仓库)、mooseFS、fastDFS+nginx(115网盘)、riak、GlusterFS(intel hbase发行版)
分布式爬虫:
Nutch、httpclient
计算框架:
MapReduce:
hadoop的mapreduce(依托于hadoop、适合于100T以上计算)
mongodb
DAG:
hadoop2的Tez框架(hive on hadoop2支持tez框架,TB以上)
spark:(依托于rdd,GB以上,窄依赖最佳)
Graph图计算:
Giraph、graphX(spark)
neo4j(不支持分布式)
MPI:
HAMA
openmpi
流计算:
storm、spark streaming(小批量流)
日志收集:
chukwa
flume
Scribe
数据导入:
Hiho, sqoop
newsql:
Pig, Hive、Phoenix
spark on sql-->前身是shark(处理java程序统计数据困难)
impala、drill
数据处理流:
oozie, Cascading
监控工具:
ganglia,nagos,zabbix,ambari
高一致性:
zookeeper、bookeeper
大表(大磁盘缓存、避免sql等运算出结果)(nosql):
hbase、Cassandra
k,v库(nosql):
redis、memcached、leveldb(SSD磁盘)
文档库(nosql):
couchdb、mongodb
简单的web框架:h5+node.js+mongodb
机器学习:
mahout、mlib(spark)、R(Rhadoop,Rspark)、weka
消息队列:
activemq、rabbitmq、qpid、kafka、hedwig,redis,memcacheq
ETL:
kettle
分布式搜索:
solr(web)、elasticsearch
HDFS(可计算资源仓库)、mooseFS、fastDFS+nginx(115网盘)、riak、GlusterFS(intel hbase发行版)
分布式爬虫:
Nutch、httpclient
计算框架:
MapReduce:
hadoop的mapreduce(依托于hadoop、适合于100T以上计算)
mongodb
DAG:
hadoop2的Tez框架(hive on hadoop2支持tez框架,TB以上)
spark:(依托于rdd,GB以上,窄依赖最佳)
Graph图计算:
Giraph、graphX(spark)
neo4j(不支持分布式)
MPI:
HAMA
openmpi
流计算:
storm、spark streaming(小批量流)
日志收集:
chukwa
flume
Scribe
数据导入:
Hiho, sqoop
newsql:
Pig, Hive、Phoenix
spark on sql-->前身是shark(处理java程序统计数据困难)
impala、drill
数据处理流:
oozie, Cascading
监控工具:
ganglia,nagos,zabbix,ambari
高一致性:
zookeeper、bookeeper
大表(大磁盘缓存、避免sql等运算出结果)(nosql):
hbase、Cassandra
k,v库(nosql):
redis、memcached、leveldb(SSD磁盘)
文档库(nosql):
couchdb、mongodb
简单的web框架:h5+node.js+mongodb
机器学习:
mahout、mlib(spark)、R(Rhadoop,Rspark)、weka
消息队列:
activemq、rabbitmq、qpid、kafka、hedwig,redis,memcacheq
ETL:
kettle
分布式搜索:
solr(web)、elasticsearch