Cloud tools

最新推荐文章于 2024-04-15 09:55:11 发布

ciedecem

最新推荐文章于 2024-04-15 09:55:11 发布

阅读量895

点赞数

分类专栏： New Land

本文链接：https://blog.csdn.net/ciedecem/article/details/10356413

版权

New Land 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1. hadoop

不支持realtime计算，因为它是based on HDFS的，而HDFS上的文件不能用append。（但可以用磁盘管理来实现append操作）和Reduce必须要等待mapper，中间还有一个sort过程。

不适合做计算

sort使用128路归并，

数据格式都是（key，value）对，且不会丢数据，因为每个文件都会有一份copy存在Grid上。

2. strom

基于stream的pipe方式，用memory计算，小数据，不比hadoop的大数。

数据格式tuple用于传递message。会丢数据。

3. spark

http://spark.incubator.apache.org/index.html

scala:

http://www.scala-lang.org/

http://www.csdn.net/article/2013-12-30/2817969-RSS-big-data

高能物理文献信息所采用最先进的开源内容管理系统 Drupal，开源搜索技术 Apache Solr，以及Google员工开发的能实时订阅新闻的 PubSubHubbub技术和Amazon的 OpenSearch，建立了一套高能物理信息监测系统，有别于传统的RSS订阅和推送，实现了几乎实时的信息抓取和任意关键词、任意类别、复合条件新闻的主动推送。