- 博客(7)
- 资源 (14)
- 收藏
- 关注
翻译 第四章 YARN 第一节 YARN应用运行分析
Apache YARN(Yet Another Resource Negotiator)是一个HADOOP集群资源管理系统。YARN在HADOOP2中引入,但是它足够通用,也支持其它的分布式计算程序。 YARN提供了用于请求和使用集群资源的API,但是这些API不是直接由用户代码使用的。用户写更高级的由分布式计算框架提供的API,这些框架是建立在YARN之上的,对用户隐藏
2016-04-20 11:03:33 922
翻译 第三章 第七节 使用distcp并行拷贝
到现在为止我们看到的HDFS访问模式都是单线程访问。它可以操作一组文件----例如定义file glob----但是要高效并行处理这些文件,你需要自己写一个程序。HADOOP自带了一个有用的程序叫distcp用来并行拷贝文件到/从HADOOP文件系统。 distcp的一个作用是有效代替hadoop fs -cp。例如,你可以拷贝一个文件到另一文件:% hadoop d
2016-04-11 10:14:19 1510
翻译 第三章 第六节 数据流
读取文件解析 为了了解客户端与HDFS、namenode、datanode交互的数据流,仔细查看图3-2,它展示了读取文件时的主要事件序列。 客户端通过调用FileSystem对象的open()方法来打开它想读取的文件,对于HDFS来说,它就是一个DisributedFileSystem实例(图3-2的第一步)。DisributedFileSyste
2016-04-08 14:16:37 1213
翻译 第三章 第五节 JAVA接口
在这一节中,我们研究HADOOP FileSystem类:与HADOOP文件系统交互的API。尽管我们主要关注的是HDFS实现DistributedFileSystem,通常你应该努力自己写抽象类FileSystem的实现,以在不同文件系统间保持可移植性。这在你测试你的程序时是非常有用的,例如,你可以使用你本地的数据来快速测试。从HADOOP URL读取数据
2016-04-06 14:31:54 729
原创 EXCEL解析工具
public class ExcelContentParser{ private Workbook wb; private static final String newExcelPrefx = ".xlsx"; /** * * @Description * @param list * @param c * @pa
2016-04-05 11:40:26 1162
dvisvgm.zip
2020-07-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人