hadoop API
IAmListening
没有签名,所以个性
展开
-
用代码来理解MapReduce1_常用的自定义类
前言MapReduce框架让我们可以专注于算法逻辑,而不需要去关注代码实现但如果有需求,我们几乎可以自定义MR流程中的全部组件,如下大框架Mapper,Reducer,Runner,还有常用到的自定义类Bean分组逻辑GroupingComparator,分区逻辑Partitioner,Map端预聚合逻辑Combiner输入流InputFormat,输出流OutputFormat自...原创 2019-05-03 20:45:29 · 440 阅读 · 0 评论 -
用代码来理解MapReduce2_分组分区和combin优化
前言MapReduce框架让我们可以专注于算法逻辑,而不需要去关注代码实现但如果有需求,我们几乎可以自定义MR流程中的全部组件,如下大框架Mapper,Reducer,Runner,还有常用到的自定义类Bean分组逻辑GroupingComparator,分区逻辑Partitioner,Map端预聚合逻辑Combiner输入流InputFormat,输出流OutputFormat自...原创 2019-05-03 22:06:42 · 250 阅读 · 0 评论 -
用代码来理解MapReduce3_输入输出流
前言MapReduce框架让我们可以专注于算法逻辑,而不需要去关注代码实现但如果有需求,我们几乎可以自定义MR流程中的全部组件,如下大框架Mapper,Reducer,Runner,还有常用到的自定义类Bean分组逻辑GroupingComparator,分区逻辑Partitioner,Map端预聚合逻辑Combiner输入流InputFormat,输出流OutputFormat自...原创 2019-05-03 23:03:42 · 391 阅读 · 0 评论 -
hadoop的FileSystem类中,遍历文件目录的三种方法(源码和区别)
hdfs的java api中,可以调用FileSystem类来管理文件该类中有三个不同的方法(listStatusIterator, listLocatedStatus, listFiles),都是用于获取指定目录下的所有文件(文件夹)那么这三个方法有什么区别呢?listStatusIterator方法和listLocatedStatus方法非常类似,都可以获取到所有的文件和文件夹. ...原创 2019-04-30 14:26:33 · 5062 阅读 · 0 评论