自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (1)
  • 收藏
  • 关注

原创 mapreduce中map方法一次读取整个文件

最近有一个项目,需要将爬虫获取的众多网页解析出来,并将内容插入hbase,考虑采用mapreduce来实现。由于一个html文件最大不过几M,所以一个文件将会交给一个map处理,mapreduce中最常见的是按行读取文本文件,而我们需要的是一次读取整个文件内容,然后在map方法中用jsoup解析内容。现将实现一次读取整个文件内容的代码贴出来。1、定义一个FileInputFormat类public

2016-01-25 13:31:48 7635

原创 Mapreduce中map方法自定义key类

为map方法的key构造一个复合类public static class IntPair implements WritableComparable<IntPair> { int first; int second; /** * Set the left and right values. */

2016-01-25 13:19:53 3009 1

原创 MapReduce map side join实例

1.问题描述现有一张大表(大概有2亿多条记录),存放的是机顶盒用户每天的播放记录,有所看的电视台名称和开始时间,但是没有节目名。 还有一张小表(几十万条),数据是用爬虫获取的每天各个电视台的节目单信息。 现在需要将用户的播放记录与节目信息关联起来。即根据用户播放记录中的电视台名和开始时间确定节目名称。2.reduce side join 还是map side join由于小表的数据量比较小,完全

2016-01-06 21:48:10 1771

转载 MapReduce中的两表join几种方案简介

1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2.2.1 reduc

2016-01-06 21:15:38 993

eclipse-maven插件

采用link方式为eclipse配置maven插件,解决了由于网络原因而导致的eclipse无法在线安装maven插件的问题。

2015-12-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除