在hadoop中查找字段所在行并将其写入文件

最新推荐文章于 2023-05-30 15:29:59 发布

agaoq

最新推荐文章于 2023-05-30 15:29:59 发布

阅读量535

点赞数

分类专栏： Linux

本文链接：https://blog.csdn.net/agaoq/article/details/100123548

版权

Linux 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

方法1: shell for循环

for file in `hadoop fs -ls file_dir|awk '{print $NF}'`

echo $file

hadoop fs -text $file |grep -5 regular_exp --color >> savefile

done

方法2：直接用hadoop命令

hadoop fs -text file_dir/* | grep regular_exp >> savefile

file_dir 指hadoop中的文件目录

-5表示显示匹配行的前后5行

savefile表示保存查找结果的文件

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

agaoq

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

如何在hadoop中处理小文件

一亩三分地

02-20

3134

一、什么是小文件小文件一般是指明显小于Hadoop的block size（hadoop 1.x中默认是64M,hadoop 2.x中默认是128M）的文件。Hadoop的block size一般是64MB，128MB或者256MB，现在一般趋向于设置的越来越大。后文要讨论的内容为什么会基于128MB，这也是CDH中的默认值。为了方便后面的讨论，这里假定如果文件大小是小于block s...

大规模 Hadoop 升级在 Pinterest 的实践

过往记忆大数据

08-15

656

Monarch 是 Pinterest 的批处理平台，由30多个 Hadoop YARN 集群组成，其中17k+节点完全建立在 AWS EC2 之上。2021年初，Monarch 还在使用五年前的 Hadoop 2.7.1。由于同步社区分支（特性和bug修复）的复杂性不断增加，我们决定是时候进行版本升级了。我们最终选择了Hadoop 2.10.0，这是当时 Hadoop 2 的最新版本。本文分享 ...

参与评论您还未登录，请先登录后发表或查看评论

使用hadoop来提取文件中的指定内容

weixin_43719616的博客

05-24

560

需求：把以下txt中含“baidu”字符串的链接输出到一个文件，否则输出到另外一个文件。步骤 1.LogMapper.java package com.whj.mapreduce.outputformat; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapre

hadoop2面试题 - 迅速在两个含有大量数据的文件中寻找相同的数据.pdf

08-11

hadoop2面试题 - 迅速在两个含有大量数据的文件中寻找相同的数据.pdf

js轻松搞定“获取table当前行，指定字段值“

weixin_52236586的博客

07-15

5236

js轻松搞定"获取table当前行，指定字段值"

HADOOP grep案例

张斌斌的博客

07-13

5584

1.HADOOP运行模式可分为三种：（1）本地模式（默认模式）：不需要启用单独进程，直接可以运行，测试和开发时使用。（2）伪分布式模式：等同于完全分布式，只有一个节点。（3）完全分布式模式：多个节点一起运行。 2.官方grep模式运行实例（1）创建input目...

5.3- echo命令详解

yaoyelinger0912的博客

10-08

547

大多数shell命令生成自己的输出，这些输出在运行该脚本的控制台监视器上显示。有时候需要添加自己的文本消息帮助脚本用户了解脚本中发生了什么。使用echo命令可以完成此操作。如果在echo命令后添加字符串，echo命令就能显示一个简单的文本字符串： [root@hadoop ~]# echo this is test show mess this is test show mess 默认情况...

hdfs文件目录中查找某个字符串所在位置

weixin_39330443的博客

09-25

5716

最近写一个MR处理数据时,遇到某一条文件乱码,需要查找改条记录的原始数据.由于文件全部保存在hdfs上面,因此需要查看该字符串在文件中的位置. hadoop fs -text $file |fgrep "$param" --color 参数说明: $file 文件在hdfs上路径 $param 需要查找的字段使用shell脚本循环遍历目录时: for file in `hado...

python将数据写入hive_python处理数据,存进hive表的方法

weixin_39631301的博客

12-19

3561

python处理数据,存进hive表的方法首先，公司的小组长给了我一个任务，把一个txt的文件中的部分内容，存进一个在hive中已有的表的相同结构的表中。所以我的流程主要有三个，首先，把数据处理成和hive中表相同结构的数据，然后仿照已有的hive中表的结构再创建一张新的数据表，最后把本地的txt文件上传到hive中新建的数据表中。1：已有的数据表的结构和在hive表中的结构完全对不上，下面的图是...

hadoop HIVE

wt2337493578的博客

08-29

752

在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的 SerDe，Hive 通过 SerDe 确定表的具体的列的数据。（1）字段 name 是基本类型， favors 是数组类型，可以保存很多爱好， scores 是映射类型，可以保存多个课程的成绩， address 是结构类型，可以存储住址信息。（5）Hive 的 String 类型相当于数据库的 Varchar 类型，该类型是一个可变的字符串，不过它不能声明其中最多能存储多少个字符，理论上它可以存储 2GB 的字符数。...

Hadoop常见面试题

qq_64412267的博客

05-30

548

什么是HDFS指的是Hadoop分布式文件系统(HadoopFileSystem)，是ApacheHadoop框架中的一个分布式文件系统。它被设计用来在集群中存储和处理大规模数据集。HDFS可以提供高可靠性、高吞吐量和高扩展性。原理1. HDFS将大文件分成多个块(block)，每个块默认大小为128MB或256MB，然后将这些块分散存储在集群中的多个节点上。2每个块都会有多个副本(replica)，默认情况下是3。

hadoop中查找某个字符串所在的hdfs位置

wisgood的专栏

08-29

6376

hadoop中查找某个字符串所在的hdfs位置

hadoop将查询结果写入文件中

weixin_38987362的博客

07-03

1346

show creat table 表名找到建表的位置 location hadoop fs -ls hadoop fs -text viewfs://cluster11/user/mbadp/hive/warehouse/t_monitor_user_profile/source=news/dt=20180628/* > ~/data/mbadp/profile_news.txt * 通配...

查找“hadoop”生成的目录和文件

weixin_33850890的博客

08-27

504

查找每个小时生成的目录vi dir-listening.sh#!/bin/bash #command date="/bin/date" ha="/usr/bin/hadoopfs-ls-d" #var y=`$date+%Y` m=`$date+%D|cut-d"/"-f1` d=`$date+%d` h=`$date+%H` dir="/cstr...

hadoop 检索文件

韩王-信

08-31

1625

[leo@hadoop ~]$ hadoop fs -lsr / |grep ts 语法： hadoop fs -lsr / | awk/sed/grep .....

linux下echo命令详解（转）

笔者从事电信媒体开发多年，愿意将多年的开发经验分享给同行

11-26

885

linux的echo命令, 在shell编程中极为常用, 在终端下打印变量value的时候也是常常用到的, 因此有必要了解下echo的用法echo命令的功能是在显示器上显示一段文字，一般起到一个提示的作用。该命令的一般格式为： echo [ -n ] 字符串其中选项n表示输出文字后不换行；字符串能加引号，也能不加引号。用echo命令输出加引号的字符串时，将字符串原样输出；用echo命令输出不加引

grep查找的内容输出到文件