2016年12月_strongyoung88

12月 11月 10月 09月 08月 07月

翻译 Flume 1.7.0 用户指南（上篇）

Apache Flume是一个分布式的，可靠的，且可用的系统，它可以用来有效地从许多不同的数据源收集，聚合和移动大量的日志数据到一个集中的数据中心进行存储。Apache Flume的使用不仅限于日志数据的聚合。因为数据源是可定制的，Flume可以用来传输大量的事件型数据，包括但不限于，如网络流量数据，社交媒体产生的数据，邮件信息和任何可能的数据源。

2016-12-24 16:19:14 3542

Hive是一个基于Apache Hadoop的数据仓库。对于数据存储与处理，Hadoop提供了主要的扩展和容错能力。Hive设计的初衷是：对于大量的数据，使得数据汇总，查询和分析更加简单。它提供了SQL，允许用户更加简单地进行查询，汇总和数据分析。同时，Hive的SQL给予了用户多种方式来集成自己的功能，然后做定制化的查询，例如用户自定义函数（User Defined Functions，UDFs).

2016-12-19 17:06:42 76593 5

翻译 HDFS的架构

Hadoop Distributed File System(HDFS)是一个分布式的文件系统，它可以运行在普通硬件之上。它与其他的分布式文件系统有许多相似之处，然而，它与其他的分布式文件系统的区别也很明显。HDFS的容错能力极强，最初的设计是可将其部署在廉价的硬件之上。HDFS对应用数据提供了高吞吐量的访问，适合那些具有大量数据集的应用。

2016-12-15 11:12:55 3081