awk and hadoop之mapper

1.  在awk 中mapper的时候我们经常会合并不同的文件,取我们想要的不同的字段。

 

awk -F "\t" '
{
  filename = ENVIRON["mapreduce_map_input_file"];
  if (index(filename, "xxxx") > 0) {
    // xxx
  }
  else {
    //xxxx
  }
}

  这样来取文件的名字,来判断当前处理的行属于哪个文件,以此进行相应的处理。

 

2.  在hadoop 中我们经常需要对两个文件做一个join操作,即取两个文件的交集,或者在一个集合中过滤掉特定的集合,如果这个一个集合很小, 我们可以把这个集合加入到一个字典中,然后过滤, 在mapper 中这么写。

awk -F "\t" -v file=${smail_set} '
BEGIN{
  while (getline < file > 0) {
    dict[$1] = 1; 
  }  
}
{
   if($1 in dict)
     //xxxx
   else 
     print xxxx
}
'

 reducer 直接 uniq 即可

 

3.  如果两个集合做 join 或者补集的操作,那么只能对集合打标签,在mapper中我们这么写:

awk -F "\t" '
{
  filename = ENVIRON["mapreduce_map_input_file"];
  if (index(filename, "xxxx") > 0) {
     print  $1"\t0\t"$0
  }
  else {
     print $1"\t1\t"$0
  }
}

 第二列 一个0 一个1  用$1 让他们combine的时候到一起去,结合shuffle时候的二次排序,可以搞定

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
"sed and awk 101 hacks" 是一本关于使用 sed 和 awk 命令的技巧集合。 sed 是一种流编辑器,用于在文本中进行查找和替换的操作。它使用简单的命令来处理文本,并且非常强大和灵活。这本书提供了许多关于使用 sed 命令的技巧和技巧。一些常见的应用包括:全局替换、删除、插入和追加文本、使用正则表达式进行匹配等。通过阅读这本书,你将了解如何更有效地使用 sed 命令来处理文本文件,提高你的工作效率。 awk 是一种处理文本数据的编程语言,它可以用于查找、提取和转换数据。awk 命令的主要功能是逐行扫描文件并执行基于规则的操作。在这本书中,你将学习到如何使用 awk 命令来处理文本数据,并解决各种实际问题。一些常见的应用包括:数据分析、报告生成、格式化输出、数据过滤和转换等。通过学习 awk 的技巧和技巧,你将成为一个更高效的文本数据处理者。 这本书主要面向那些已经熟悉 sed 和 awk 命令,并且希望提高他们的技能的人群。它提供了许多实际的示例和用法,帮助读者更好地掌握 sed 和 awk 的使用。内容涵盖了许多不同的主题,包括入门指南、高级用法、实用技巧和示例脚本。无论你是初学者还是有经验的用户,这本书都将是一个有用的参考工具。 总的来说,"sed and awk 101 hacks" 是一本关于使用 sed 和 awk 命令的实用指南和技巧合集。通过学习和实践这些技巧,你将能够更好地处理和处理文本数据,提高你的工作效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值