MapReduce系列之过滤模式

过滤模式基本有四种:过滤,布隆过滤,Top 10 和去重

过滤:将不感兴趣的记录过滤掉并将需要的数据保留下来

类似用法:select * from table where 条件

示例:map{

    if(条件true)

   {

       context.write();  

}

}

 

布隆过滤:与过滤类似 ,只是他使用了一个独特的评估函数来作用于每一条记录。

与普通的过滤有两点显著不同:

1、我们过滤记录的依据是基于记录是否属于某个集合而不是基于某些热门值

2、要使用布隆过滤器来评估集合成员资格

实例 声望值

 

Top 10:排名

类似用法:(1)select * from table  order by col4 desc limit 10

(2)B=order A by col4 desc;

    C=limit B 10;

 

示例:可以通过job.setNumReduceTasks(1)配置作业只有一个Reducer。遍历所有的值存储于TreeMap中,当TreeMap中记录超过10条时,第一个元素(最小)将会被从map中移除。

 

 

去重:求取没有相似记录的集合

类似用法:select distinct * from table;

示例:对用户ID做去重

mapper:提取记录中用户的ID,作为输出的键,输出的值为空类型

Reducer:context.write(key,null)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值