2016年01月_lqf1403

09月 08月 07月 06月 05月 03月 02月 01月

原创 mapreduce中map方法一次读取整个文件

最近有一个项目，需要将爬虫获取的众多网页解析出来，并将内容插入hbase，考虑采用mapreduce来实现。由于一个html文件最大不过几M，所以一个文件将会交给一个map处理，mapreduce中最常见的是按行读取文本文件，而我们需要的是一次读取整个文件内容，然后在map方法中用jsoup解析内容。现将实现一次读取整个文件内容的代码贴出来。1、定义一个FileInputFormat类public

2016-01-25 13:31:48 7635

原创 Mapreduce中map方法自定义key类

为map方法的key构造一个复合类public static class IntPair implements WritableComparable<IntPair> { int first; int second; /** * Set the left and right values. */

2016-01-25 13:19:53 3009 1

原创 MapReduce map side join实例

1.问题描述现有一张大表（大概有2亿多条记录），存放的是机顶盒用户每天的播放记录，有所看的电视台名称和开始时间，但是没有节目名。还有一张小表（几十万条），数据是用爬虫获取的每天各个电视台的节目单信息。现在需要将用户的播放记录与节目信息关联起来。即根据用户播放记录中的电视台名和开始时间确定节目名称。2.reduce side join 还是map side join由于小表的数据量比较小，完全

2016-01-06 21:48:10 1771

转载 MapReduce中的两表join几种方案简介

1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2.2.1 reduc

2016-01-06 21:15:38 993

eclipse-maven插件

采用link方式为eclipse配置maven插件，解决了由于网络原因而导致的eclipse无法在线安装maven插件的问题。

2015-12-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人