2016年04月_fkbush

11月 05月 04月 03月 02月

翻译第四章 YARN 第一节 YARN应用运行分析

Apache YARN(Yet Another Resource Negotiator）是一个HADOOP集群资源管理系统。YARN在HADOOP2中引入，但是它足够通用，也支持其它的分布式计算程序。 YARN提供了用于请求和使用集群资源的API，但是这些API不是直接由用户代码使用的。用户写更高级的由分布式计算框架提供的API，这些框架是建立在YARN之上的，对用户隐藏

2016-04-20 11:03:33 922

翻译第三章第七节使用distcp并行拷贝

到现在为止我们看到的HDFS访问模式都是单线程访问。它可以操作一组文件----例如定义file glob----但是要高效并行处理这些文件，你需要自己写一个程序。HADOOP自带了一个有用的程序叫distcp用来并行拷贝文件到/从HADOOP文件系统。 distcp的一个作用是有效代替hadoop fs -cp。例如，你可以拷贝一个文件到另一文件：% hadoop d

2016-04-11 10:14:19 1510

翻译第三章第六节数据流

读取文件解析为了了解客户端与HDFS、namenode、datanode交互的数据流，仔细查看图3-2，它展示了读取文件时的主要事件序列。客户端通过调用FileSystem对象的open()方法来打开它想读取的文件，对于HDFS来说，它就是一个DisributedFileSystem实例（图3-2的第一步）。DisributedFileSyste

2016-04-08 14:16:37 1213

翻译第三章第五节 JAVA接口

在这一节中，我们研究HADOOP FileSystem类：与HADOOP文件系统交互的API。尽管我们主要关注的是HDFS实现DistributedFileSystem，通常你应该努力自己写抽象类FileSystem的实现，以在不同文件系统间保持可移植性。这在你测试你的程序时是非常有用的，例如，你可以使用你本地的数据来快速测试。从HADOOP URL读取数据

2016-04-06 14:31:54 729

原创 EXCEL解析工具

public class ExcelContentParser{ private Workbook wb; private static final String newExcelPrefx = ".xlsx"; /** * * @Description * @param list * @param c * @pa

2016-04-05 11:40:26 1162