MapReduce系列之过滤模式

最新推荐文章于 2023-02-28 07:49:13 发布

twj0823

最新推荐文章于 2023-02-28 07:49:13 发布

阅读量972

点赞数

本文链接：https://blog.csdn.net/twj0823/article/details/84553715

版权

过滤模式基本有四种：过滤，布隆过滤，Top 10 和去重

过滤：将不感兴趣的记录过滤掉并将需要的数据保留下来

类似用法：select * from table where 条件

示例：map{

if（条件true）

{

context.write();

}

布隆过滤：与过滤类似，只是他使用了一个独特的评估函数来作用于每一条记录。

与普通的过滤有两点显著不同：

1、我们过滤记录的依据是基于记录是否属于某个集合而不是基于某些热门值

2、要使用布隆过滤器来评估集合成员资格

实例声望值

Top 10：排名

类似用法：(1)select * from table order by col4 desc limit 10

(2)B=order A by col4 desc;

C=limit B 10;

示例：可以通过job.setNumReduceTasks(1)配置作业只有一个Reducer。遍历所有的值存储于TreeMap中，当TreeMap中记录超过10条时，第一个元素（最小）将会被从map中移除。

去重：求取没有相似记录的集合

类似用法：select distinct * from table；

示例：对用户ID做去重

mapper：提取记录中用户的ID，作为输出的键，输出的值为空类型

Reducer:context.write(key,null)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

twj0823

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

mapreduce项目数据清洗

10-10

mapreduce基本数据读取，通俗易懂。此项目情景为，遗传关系族谱。（爷爷、父母、孩子）经典案例

MapReduce设计模式之过滤模式

liuffei的专栏

07-25

460

过滤模式过滤(正则过滤和随机抽样）应用场景可以从一个大的数据集中筛选出具有某些特征的小的数据集。代码实现在Mapper阶段，用正则表达式对值进行过滤。在Ruducer阶段，生成double类型的随机数，判断是否小于给定的数进行模拟简单的随机取样。 import org.apache.hadoop.conf.Configu...

参与评论您还未登录，请先登录后发表或查看评论

MapReduce Design Patterns（chapter 3 （part 1））（五）

亡の剑指

01-04

2251

Chapter 3. Filtering Patterns 本章的模式有一个共同点：不会改变原来的记录。这种模式是找到一个数据的子集，或者更小，例如取前十条,或者很大，例如结果去重。这种过滤器模式跟前面章节的不同是，从更小的粒度认识数据，例如特殊用户生成的记录，或文本中用得最多的前10个动词。简单的说，过滤器允许你更清楚的看清数据，像在显微镜下一样。也可以认为是搜索的一种形式。如果你对找出所有有

MapReduce之过滤（一）

zhangdy12307的博客

04-17

1688

MapReduce之过滤模式描述过滤作为一个抽象模式为其他模式服务，过滤简单的对每一条记录进行评估，并基于某个条件作出判断，以确定当前的这条记录是否保留。目的过滤掉不感兴趣的记录并将需要的记录保留下来适用场景使用过滤的唯一必要条件就是数据可以被解析为“记录”，并通过特定的准则判断他们是否可以被保留近距离观察数据跟踪某个事件的线索数据清洗简单随机抽样移除低分值数据问题描述...

MapReduce的编程开发——过滤和保存

Comet_sgf的程序员之路

01-31

664

文章目录前言一、启动Hadoop二、环境搭配三、过滤与保存实验总结前言本文主要是学习MapReduce的学习笔记，对所学内容进行记录。实验环境： 1.Linux Ubuntu 16.04 2.hadoop3.0.0 3.eclipse4.5.1 一、启动Hadoop 进入Hadoop启动目录cd /apps/hadoop/sbin 启动Hadoop./start-all.sh 输入‘jps’，启动后显示如下信息二、环境搭配打开eclipse->Window->Prefer

MapReduce设计模式

06-28

例如，可以使用过滤模式来排除掉不需要的噪声数据，或者只保留含有关键字的日志条目。这些模式帮助开发者控制数据的流向，确保最终处理的数据都是有效的和有意义的。本书的目录包含了一个前言（Preface），介绍了...

MapReduce实现基于物品的协同过滤算法，即电影推荐系统.zip

最新发布

03-13

在这个名为"MapReduce实现基于物品的协同过滤算法，即电影推荐系统.zip"的压缩包中，我们看到的是一个利用Hadoop MapReduce实现的电影推荐系统，它基于物品的协同过滤算法来为用户推荐可能感兴趣的电影。协同过滤...

使用MapReduce结合HBase Filter过滤数据

tiandd12的博客

06-18

1902

使用MapReduce过滤HBase数据需求：读取hbase数据，根据某一些条件，过滤掉不符合情况的行，实现数据在服务器端的过滤。解决方法：通过翻阅《HBase权威指南》发现，实现这个需求有以下几种方法 ① 使用行过滤器（RowFilter），基于行健来过滤数据。通过比较返回比符合条件的行健。 ② 单列值过滤器（SingleColumnValueFilter），此过滤器使

利用Map Reduce 过滤大数据的解决方案

学无止境

03-21

6389

问题引入：假设从200亿条记录中（大约200G）查找100多条其中的记录，不考虑集群的计算能力，我们可以这样写mapreduce：直接不考虑数据量大小，reduce阶段一次行过滤。 public static class UserChainSixMapper extends Mapper { private static String prefix1 = "tm"

MapReduce之过滤（二）

zhangdy12307的博客

04-17

562

MapReduce之简单随机抽样这篇博客和上一篇有点类似，模式描述和应用场景都和MapReduce之过滤（一）类似简单随机抽样从一个较大的数据集中以一定概率抓取一个数据集，其中每条记录均有相同的抽取概率问题描述一个较大的数据集中以一定概率抓取一个数据集样例输入与MapReduce之过滤（一）数据类似样例输出数据集随机生成，可能存在不同 map阶段任务在map函数中，简单的生成一...

结合案例讲解MapReduce重要知识点 -------- 过滤敏感词汇

Z_Data的博客

11-09

1506

一篇文章 article.txt 内容如下： We ask that you please do not send us emails privately asking for support. We are non-paid volunteers who help out with the project and we do not necessarily have the time o...

MapReduce中设置文件过滤器代码

ukakasu的博客

08-05

456

FileInputFormat.setInputPathFilter(job, MyFilter.class);//在主函数中设置过滤器 //输入路径要以/*通配符结尾 //自定义过滤器 private static class MyFilter implements PathFilter{ public boolean accept(Path path) { return

大数据框架之Hadoop：MapReduce（三）MapReduce框架原理——数据清洗（ETL）

yiluohan0307的专栏

02-28

1727

数据清洗（ETL）

hadoop之mapreduce编程实例（系统日志初步清洗过滤处理）

热门推荐

zfszhangyuan的博客

09-13

1万+

刚刚开始接触hadoop的时候，总觉得必须要先安装hadoop集群才能开始学习MR编程，其实并不用这样，当然如果你有条件有机器那最好是自己安装配置一个hadoop集群，这样你会更容易理解其工作原理。我们今天就是要给大家演示如何不用安装hadoop直接调试编程MapReduce函数。

利用MapperReducer的链式编程进行单词统计和过滤敏感词

herion_123的博客

03-18

909

Map Mapper1 import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException

大数据处理-mapreduce 代码入门实例-多表连接、对单词排序、对数据过滤、统计单词数量并排序、分区统计等

weixin_43327597的博客

12-15

2696

多表连接思路为，通过map阶段将数据按<key，value>进行map，key为id，则shuffle阶段会自动进行组合，但同时对两个表的内容进行标记，进行笛卡尔积时可以进行区分。代码如下 package org.apache.hadoop.examples; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWr.

【Hive】MapReduce 如何实现 Hive SQL 的基本操作-过滤

每天更新大数据面经和技术

09-01

639

过滤

java HashMap实现中文分词器应用：敏感词过滤实现

dreamzuora的博客

12-16

600

今天下午部门内部技术分享是分词器算法。这次的主讲是大名鼎鼎的Ansj分词器的作者-孙健。作者简介： Ansj分词器作者 elasticsearch-sql（elasticsearch的sql插件）作者，支持sql查询 nlp-lang自然语言工具包发起人 NLPCN（自然语言处理组织）发起人等等… 网站：http://www.nlpcn.org/ GIT地址：https://github.co...

MapReduce编程模式解析

"MapReduce设计模式，深入理解MapReduce编程模式，更好的利用MapReduce模型，涉及Hadoop、大数据、云计算相关知识" MapReduce是一种分布式计算框架，由Google在2004年提出，主要用于处理和生成大规模数据集。它的...