- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 mapreduce中map方法一次读取整个文件
最近有一个项目,需要将爬虫获取的众多网页解析出来,并将内容插入hbase,考虑采用mapreduce来实现。由于一个html文件最大不过几M,所以一个文件将会交给一个map处理,mapreduce中最常见的是按行读取文本文件,而我们需要的是一次读取整个文件内容,然后在map方法中用jsoup解析内容。现将实现一次读取整个文件内容的代码贴出来。1、定义一个FileInputFormat类public
2016-01-25 13:31:48 7635
原创 Mapreduce中map方法自定义key类
为map方法的key构造一个复合类public static class IntPair implements WritableComparable<IntPair> { int first; int second; /** * Set the left and right values. */
2016-01-25 13:19:53 3009 1
原创 MapReduce map side join实例
1.问题描述现有一张大表(大概有2亿多条记录),存放的是机顶盒用户每天的播放记录,有所看的电视台名称和开始时间,但是没有节目名。 还有一张小表(几十万条),数据是用爬虫获取的每天各个电视台的节目单信息。 现在需要将用户的播放记录与节目信息关联起来。即根据用户播放记录中的电视台名和开始时间确定节目名称。2.reduce side join 还是map side join由于小表的数据量比较小,完全
2016-01-06 21:48:10 1771
转载 MapReduce中的两表join几种方案简介
1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2.2.1 reduc
2016-01-06 21:15:38 993
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人