1. hadoop
不支持realtime计算,因为它是based on HDFS的,而HDFS上的文件不能用append。(但可以用磁盘管理来实现append操作)和Reduce必须要等待mapper,中间还有一个sort过程。
不适合做计算
sort使用128路归并,
数据格式都是(key,value)对,且不会丢数据,因为每个文件都会有一份copy存在Grid上。
2. strom
基于stream的pipe方式,用memory计算,小数据,不比hadoop的大数。
数据格式tuple用于传递message。会丢数据。
3. spark
http://spark.incubator.apache.org/index.html
scala:
http://www.scala-lang.org/
4.
http://www.csdn.net/article/2013-12-30/2817969-RSS-big-data
高能物理文献信息所采用最先进的开源内容管理系统 Drupal,开源搜索技术 Apache Solr,以及Google员工开发的能实时订阅新闻的 PubSubHubbub技术和Amazon的 OpenSearch,建立了一套高能物理信息监测系统,有别于传统的RSS订阅和推送,实现了几乎实时的信息抓取和任意关键词、任意类别、复合条件新闻的主动推送。