- 博客(8)
- 资源 (2)
- 收藏
- 关注
翻译 Flume 1.7.0 用户指南(上篇)
Apache Flume是一个分布式的,可靠的,且可用的系统,它可以用来有效地从许多不同的数据源收集,聚合和移动大量的日志数据到一个集中的数据中心进行存储。Apache Flume的使用不仅限于日志数据的聚合。因为数据源是可定制的,Flume可以用来传输大量的事件型数据,包括但不限于,如网络流量数据,社交媒体产生的数据,邮件信息和任何可能的数据源。
2016-12-24 16:19:14 3542
翻译 Hive 教程(官方Tutorial)
Hive是一个基于Apache Hadoop的数据仓库。对于数据存储与处理,Hadoop提供了主要的扩展和容错能力。Hive设计的初衷是:对于大量的数据,使得数据汇总,查询和分析更加简单。它提供了SQL,允许用户更加简单地进行查询,汇总和数据分析。同时,Hive的SQL给予了用户多种方式来集成自己的功能,然后做定制化的查询,例如用户自定义函数(User Defined Functions,UDFs).
2016-12-19 17:06:42 76601 5
翻译 HDFS的架构
Hadoop Distributed File System(HDFS)是一个分布式的文件系统,它可以运行在普通硬件之上。它与其他的分布式文件系统有许多相似之处,然而,它与其他的分布式文件系统的区别也很明显。HDFS的容错能力极强,最初的设计是可将其部署在廉价的硬件之上。HDFS对应用数据提供了高吞吐量的访问,适合那些具有大量数据集的应用。
2016-12-15 11:12:55 3081
原创 Apache Avro 1.8.1 入门指南(Java)
Apache Avro是一个数据序列化系统。序列化就是将对象转换成二进制流,相应的反序列化就是将二进制流再转换成对应的对象。因此,Avro就是用来在传输数据之前,将对象转换成二进制流,然后此二进制流达到目标地址后,Avro再将二进制流转换成对象。
2016-12-23 15:33:18 8456 1
原创 Hadoop源码学习-以创建目录为例
在终端输入命令hadoop fs -mkdir dir时,最后是转换成运行JAVA程序,执行类FsShell,并传递相应的参数。在类FsShell里的执行过程类FsShell是使用命令hadoop fs时执行的类,它的功能就是:运行一个通用文件系统客户端,能够对文件系统进行相关操作。
2016-12-13 13:58:33 2311
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人