awk and hadoop 之reducer

最新推荐文章于 2023-09-13 08:51:12 发布

犀利-sharp

最新推荐文章于 2023-09-13 08:51:12 发布

阅读量338

点赞数

本文链接：https://blog.csdn.net/fcc7619666/article/details/52022108

版权

awk 同时被 3 个专栏收录

7 篇文章 0 订阅

订阅专栏

hadoop

2 篇文章 0 订阅

订阅专栏

reduce

1 篇文章 0 订阅

订阅专栏

配合上面一篇 mapper篇，这篇主要讲在reducer的时候怎么处理两个文件中的内容，在mapper中我们给每个文件中的内容打了 tag ，在第二个字段，然后就能处理了，只要key一样，就可以弄到一个文件中去。

awk -F '\t' '{
  id = $1;
  tag = $2;
  if (0 == tag){
    idPre = $1;
  }else (1 == tag && id == idPre){
    print $3"\t"id;    
  }  
}'

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

犀利-sharp

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Hadoop Streaming 之 awk实现Map/Reduce

why俺不是悟空

12-03

355

//TODO 说明 [xxuser@xxhost ~]$ hadoop jar $HADOOP_STREAMING_JAR \ > -input /test/ylb/mock_data/cv-pt-demo.txt \ > -output /test/ylb/mock_data/output/cv-pt-demo-10 \ > -mapper...

Hadoop完全分布式配置

yandao的博客

04-18

6258

1.虚拟机环境准备 1.1 克隆虚拟机 1.2. 修改克隆虚拟机的静态IP 机器名静态IP master 192.168.121.151 slaver1 192.168.121.152 slaver2 192.168.121.153 [root@master Desktop]# vi /etc/sysconfig/network-scripts/ifcfg-eno16777736 #输入以下内容 DEVICE=eno16777736 TYPE=Ethernet ONB

参与评论您还未登录，请先登录后发表或查看评论

awk and hadoop之mapper

slow is fast

08-07

154

1. 在awk 中mapper的时候我们经常会合并不同的文件，取我们想要的不同的字段。 awk -F "\t" ' { filename = ENVIRON["mapreduce_map_input_file"]; if (index(filename, "xxxx") > 0) { // xxx } else { //xxxx ...

在shell脚本中如何调用hadoop 命令

龍博客

11-01

7063

我们在shell脚本中可能会用到hadoop或者其他命令，而这些命令可能是一个整体，如果我们只是简单的写入到shell脚本中，可能会被分解成其他的各个子字段，即有可能会分成两部分去执行，这样就会导致命令执行失败。 hadoop fs -get /XXXXXX 上面这个就会分成hadoop fs 和get两部分这样就执行不成功了所以在shell脚本中应该用反引号“括起来，注意这个事反引号不

awk and sed

07-29

awk and sedawk and sedawk and sedawk and sedawk and sedawk and sedawk and sedawk and sedawk and sedawk and sedawk and sedawk and sedawk and sedawk and sedawk and sedawk and sedawk and sedawk and sed

hadoop3.2.1安装（vm版）

leveretz的博客

02-19

903

Hadoop3.2.1分布式高可用安装 1 下载安装包 jdk-8u271-linux-x64.rpm hadoop-3.2.1.tar.gz zookeeper-release-3.6.2.tar.gz 2 主机规划 IP 主机名用途系统进程用户密码操作系统 CPU 内存 ...

Hadoop Streaming 编程

05-10

- **Shell 脚本实现**：Shell 脚本是一种非常实用的方式，可以通过简单的命令行工具（如 `awk`、`grep` 等）快速实现 Mapper 和 Reducer 功能。 - **Python 实现**：Python 由于其强大的库支持和简洁的语法，也是...

Hadoop k-means 算法实现

热门推荐

fansy1990的专栏

09-28

1万+

经过昨天的准备工作，今天基本就可以编写整个k-means算法程序了。今天编写的时候遇到了一个问题，是combine操作时遇到的问题。除了这个问题基本都按照原来的思路进行。先说下我的思路吧。准备工作：在上传数据文件到HDFS上之前，先应该产生一个中心文件，比如我的输入文件如下： 0.0 0.2 0.4 0.3 0.2 0.4 0.4 0.2 0.4 0.5 0.2 0.4 5.0 5.2 5.

awk详解

M________123的博客

03-10

482

简介awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk，未作特别说明，一般指gawk，gawk 是 AWK 的 GNU 版本。awk其名称得自于它的创始人 Alfred Aho 、Peter

awk and sed使用

wangzhenling的专栏

11-19

332

awk '{if(NR%10==0){printf $0 ",\n"}else{printf "%s,",$0}}' file 每十行合并一行

常用的文本处理命令 --- awk and sed

my_miuye的博客

08-03

299

每次写脚本批量干啥事前，都得要预处理数据，所以学学简单的脚本处理命令还是很有必要的。一、awk 格式化文本，我一般用来分割获取需要的列 1、以逗号(,)分割，获取分割后的第一列 cat test.txt |awk -F"," '{print $1}' -F后面跟分割符，如-F" " 以空格分割， -F"\"" 以”分割，这个时候双引号要进行转义 $1是获取第一列，$5就是获取第5列，注意{}外面的是单引号 2、以逗号分割，打印第1列和第3列，中间用—连接 cat test.

【Linux-25】awk工具使用

藏经阁 | 玄苦

06-15

1740

一. awk工具介绍 1. 相比sed用来处理一行数据，awk比较倾向将一行分成几个“字段”来处理。 2. awk命令的格式 awk 'BEGIN{} {} END{}' filename (1)awk可以处理文件也可以读取来自前个命令的标准输出 (2)awk主要是处理每一行的字段内的数据，默认的字段分割符是空格键或tab键 (3)awk中B...

linux-awk命令

最新发布

jll126的博客

09-13

717

【9】取出第3列大于0 并且小于1000 的行并且展示第1列、第3列，对齐显示。【1】从test.log取出从包含 A 到包含 B 的行（范围）【4】从test.log取出行号大于等于3 并且小于等5（行）【3】从test.log取出从包含 A 或包含 B 的行（或）【1】查询test.log文件中整行中包含以 12 开头的行。【2】查询test.log文件中整行中包含以 12 结尾的行。【2】从test.log取出第3行到最后一行的内容（行）【5】从test.log取出制定行号的内容。

awk process ' and "

Eng163Word的博客

08-15

208

Claim: below content is learnt from other people. 双引号： awk ‘{print “\”“}’ #放大：awk ‘{print ” \” “}’ 使用“”双引号把一个双引号括起来，然后用转义字符\对双引号进行转义，输出双引号。单引号： awk ‘{print “’\””}’ # 放大: awk ‘{pri...

『现学现忘』Shell编程 — 27、AWK编程（三）awk的条件

繁华似锦Fighting

10-29

445

文章目录1、awk的条件2、说明（1）BEGIN（2）END（3）关系运算符（4）说明awk中条件表达式的执行过程（5）awk中使用正则表达式（6）`A~B`练习 1、awk的条件 2、说明以下练习使用如下文本 ID Name Python Linux MySQL Java 1 Tangs 88 87 86 85.55 2 Sunwk 99 98 97 96,66 3

awk常用操作符、运算符及判断符，详解

boluoba的博客

05-27

1540

awk常用操作符、运算符及判断符，详解如下： •□　＋＋－－：增加与减少（前置或后置）。 •□　^∗∗：指数（右结合性）。 •□　！＋－：非、一元（unary）加号、一元减号。 •□　＋－∗/%：加、减、乘、除、余数。 •□　＝＝＝！＝＝：数字比较。 •□　&&：逻辑and。 □　‖：逻辑or。 •□　＝＋＝－＝∗＝/＝%＝^＝∗∗＝：赋值。 awk与流程控制语句如下： •□　if...

Hadoop Streaming和awk

chigui2571的博客

09-10

379

Hadoop streaming类似于Unix管道数据流，从标准输入(STDIN)输入，输出到标准输出(STDOUT)，数据必须是基于文本的，文本的每一行被认为是一条记录。这也是很多Unix命令，例如：awk的工作方式。在Hadoop streaming中整个数据流就像是一个管道(P...

awk编写hadoop streaming 总结

fuyangchang的专栏

01-20

4323

hrmr $hdp/test/query hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.19.1-streaming.jar / -D mapred.reduce.tasks=0 / -mapper "awk -F'/t' '{print /$1}'" / -input $path / -output $hdp/test/query 1.awk调用的时候$符号需要转义成/$

Python+HadoopStreaming：分布编程实战与原理解析

Mapper和Reducer可以是任何支持标准输入（stdin）和标准输出（stdout）的程序，比如Unix shell脚本awk、grep、cat，或者Java类。这样做的好处在于灵活性，开发者可以根据实际需求选择适合的语言编写，同时避免了直接...