http://hi.baidu.com/nullbeta/blog/item/76e2781549d76e1d34fa418f.html
面对海量数据,传统的ETL(Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载)工具显得力不从心,主要是数据转换开销太大,在性能上无法满足海量数据的采集需求。下面向大家介绍四款开源的海量数据采集工具。
Facebook的Scribe
https://github.com/pcting/scribe/
LinkedIn的Kafka
http://sna-projects.com/kafka/downloads.php
淘宝的Timetunnel
http://code.taobao.org/project/view/411/
Hadoop的Chukwa