Shell(4)------shell如何处理批量数据命令

shell如何处理批量数据命令

插播!插播!插播!亲爱的朋友们,我们的shell课程上线啦!感兴趣的小伙伴可以去下面的链接学习哦~

Shell入门——基础知识+实战_在线视频教程-CSDN程序员研修院

当我们面临大量数据的清洗和转换时,shell脚本成为了不可或缺的助手。通过这个强大的工具,我们可以高效地完成各种任务,例如合并多个文件、提取日志文件中的关键信息等。shell脚本的使用不仅提高了工作效率,还大大减少了重复操作,避免了潜在的错误。

与传统的编程语言相比,shell脚本在处理批量数据方面具有显著的优势。它基于命令行操作,能够迅速地执行命令,避免复杂的逻辑判断,从而实现更高的处理速度。此外,shell脚本非常适合集成到现有的工作流程中,与各种工具和环境无缝衔接。

在这里,我将为大家简要介绍四个非常实用的命令:grep、cut、awk  和  sed。这些命令在查找、分析和处理日志、数据方面具有极高的价值,可以帮助我们快速地获取所需的数据。

1. grep

grep是一款功能强大的文本搜索工具,它能够在单个或多个文件中查找指定的文本模式,并输出匹配的行。在实际应用中,使用grep命令可以方便地查找日志文件中的特定信息,如错误提示、关键字等。

首先,了解一下grep命令的基本语法格式:

grep [选项参数] [内容] [文件]

其中,选项参数包括了许多实用的功能,例如:

-  `-v`:反向匹配文本,即匹配不包含指定字符串的行。

接下来,我们通过一个实例来进一步了解grep命令的使用。假设我们有一个名为1.txt的文件,内容如下:
 

printf("helloworld\n");

a=printf1;

PRINTF("helloworld\n");

现在,我们想要查找不包含`printf`的行,并将其打印到终端。这时,可以使用grep  -v命令来实现:

grep -v 'printf' 1.txt

执行该命令后,终端输出结果为:

在文本查找过程中,我们常常需要了解查找到的行的行号,以便更准确地定位和分析问题。为此,我们可以利用`grep`命令的一个实用参数——`-n`。这个参数可以在匹配的行前加上行号,帮助我们更好地理解和处理查找结果。

对上一个名为1.txt的文件,现在我们希望输出其中包含`printf`的所有行,并在每行前加上行号。那么,我们可以这样使用`grep`命令:

grep -n 'printf' 1.txt

执行这个命令后,输出结果将包括所有包含`printf`字符的行以及对应的行号,如下所示:

在文本查找与匹配的过程中,我们常常会遇到一些问题。例如,当我们使用普通的查找方法寻找包含“printf”的单词时,可能会同时输出包含“printf1”的文本。那么,如何进行精确查找呢?

在这里,我们可以借助w参数来实现精确匹配,-w参数表示只匹配整个单词,而不是子字符串。如果我们想在输出结果中仅包含“printf”这个单词,而不包含“print1”,就可以使用以下命令:

grep -w 'printf'

这个命令将会精确查找文本中包含“printf”的单词,而忽略其他包含“print”的子字符串。执行这个命令后,输出的结果将只包含精确匹配的“printf”字符。

在许多命令行工具中,有一个常用的参数叫做  "-i",它具有特殊的功能。这个参数的代表意义是“忽略大小写”。它的作用在于,无论输入的字符串是大写、小写还是混合大小写,都会被视为相同的字符串,从而进行处理。这种特性在某些情况下非常有用,尤其是当你需要对文本进行搜索或匹配时。

就以grep命令为例,如果不添加任何参数,它会在搜索时区分大小写。这意味着,如果你在寻找一个大写单词,而文本中存在与之相同的小写单词,那么grep命令将无法匹配到大写单词。但是,当你添加了  "-i"参数后,这种情况就会发生变化。grep命令将不再区分大小写,因此,大写、小写或混合大小写的字符串都可以被正确匹配。

这里我们可以使用1.txt查找printf,且搜索时不区分大小写。

grep -i "printf" 1.txt

这个命令的意思是在1.txt文件中搜索不区分大小写的“printf”单词。执行这个命令后,输出的结果将会包含所有包含“printf”的行,无论是大写、小写还是混合大小写。

在文本查找与匹配过程中,有一个特殊的字符值得我们关注,那就是^符号。它具有独特的功能,可以精确地匹配字符串的开头位置,也就是行首。这意味着,当我们需要查找某个特定字符串在文本中的位置时,^符号为我们提供了一个高效的手段。接下来,我将通过一个具体的示例来详细介绍如何使用^符号进行文本查找。

还是对名为1.txt的文本文件,其中包含了一段使用printf函数的代码。这段代码在文件中出现了两次,一次位于行首,另一次则不在行首。为了解决这个问题,我们可以利用grep命令和^符号来查找开头为printf的字符串所在行。

我们可以输入以下命令:

grep '^printf' 1.txt

执行此命令后,终端将输出开头为printf的字符串及其所在行。

最后,我想讲解的是参数是-E,“-E”是grep命令中的一个选项,用于启用扩展正则表达式。在启用此选项后,grep命令将遵循正则表达式的语法规则进行匹配。在扩展正则表达式中,部分特殊字符与语法规则具有特定含义,例如“|”表示逻辑或操作。还是借用1.txt来给大家举例:

printf("helloworld\n");

a=printf1;

PRINTF("helloworld\n");

echo  "welcome"

如果想查找有printf或echo的单词,我们使用“|”就可以匹配到,执行以下命令后,grep将输出匹配到的行:

Grep -E "printf|echo" 1.txt

此时的输出结果为:

关于grep命令的一些常用参数以及其基础使用方式,本次暂且讲述至此。

2. cut

接下来,我们将深入了解另一个批量处理数据的命令——cut命令。在众多命令行工具中,cut命令独具匠心,它通常用于提取文本文件中的特定列数据,以特定的分隔符为标志。这种命令的主要应用场景是对文本文件进行提取和切割,从而简化数据的查找、筛选和分析等过程。下面,我们将详细介绍cut命令的用法和应用实例。

首先,让我们了解一下cut命令的基本语法:

Cut [选项参数] [文件]

其中,选项参数可以根据实际需求进行设置,以满足不同的需求。接下来,我们将详细介绍cut命令的一些常用选项。

倘若有一个文件2.txt,它的内容如下:

11:22:33:44

aa:bb:cc:dd

AA:BB:CC:DD

首先,我们来谈谈-d选项。这个选项的作用是指定分隔符。在cut命令中,当我们想要根据特定的分隔符来分割文本内容时,就可以使用这个选项。它的使用方法很简单,只需在cut命令后加上“-d”选项,紧接着是要使用的分隔符。例如,如果我们想要以逗号作为分隔符来分割文本,可以这样输入命令:cut  -d  ","。

但需要注意的是,-d选项不能单独使用,它需要与其他选项结合,最常见的搭配就是与-f选项一起使用。

接下来,我们来看看-f选项。这个选项的作用是指定截取区域,也就是我们要从文本中提取哪些列。它的使用方法也很简单,只需在cut命令后加上“-f”选项,紧接着是要提取的列数或列范围。例如,如果我们想要从文本中提取第1列和第3列,可以这样输入命令:cut  -f 1,3。

以刚才的例子来说,如果我们想要以':'作为分隔符,提取2.txt文件中的第1列和第3列,可以使用以下命令:cut  -d  ':'  -f 1,3 2.txt。这样,以制表符为分隔符的2.txt文件的第1列和第3列数据就会输出到终端。

-f选项后面还可以跟上列的范围,用“-”连接两个数字,例如说我们想输出第一列到第三列,那我们可以这么做:

cut -d ':' -f 1-3  2.txt

如果文本有多行,而我们想要选取从第二行到最后一行的部分,那么我们并不需要去数最后一行是第几行。此时,有一个简单的方法可以满足我们的需求。

cut -d ':' -f  1-  2.txt

此时输出的结果就是第二行到最后一行的数据。

除了使用分隔符进行文本分割,我们还可以利用字符为单位进行分割。在命令行工具中,cut命令的"-c"选项为我们提供了这种能力。它允许我们指定要提取的字符范围或数量。比如,我们想要从2.txt文件中提取第1、3、5个字符,只需要执行以下命令:

cut -c 1,3,5 2.txt

执行后,我们将会得到以下的输出:

可见输出的就是第1,3,5列的字符。

3. awk

接下来,我们将深入了解一种名为awk的批量数据处理命令。awk是一种文本处理工具,能够对数据文件进行列操作。该命令使用频繁,具备极高的灵活性。除基本形式外,awk还提供诸多高级功能与选项,以实现更为复杂的文本处理任务,如条件过滤、数据排序、数据转换及数据格式化等。其语法格式如下:

awk  '条件{执行动作}'文件名

awk  [选项]  '条件1  {执行动作}...  '文件名

在介绍awk之前,需提及printf命令。printf用于格式化输出,不会自动换行,通常使用%符号作为格式化指令。其中%,ns表示输出字符串型,n代表字符数量;%i表示输出整型,n代表数字数量;%nf表示输出浮点型,n代表小数点后位数。

相较而言,print命令可输出字符串和变量,输出结果为字符串或变量值,并在结尾自动添加换行符。printf命令需搭配格式化字符串和变量进行输出,而print命令可直接输出字符串和变量。以下举一实例进行说明:

在awk命令中,$1~$9不再表示参数传递时的第一个至第九个参数,而是分别代表第一列至第九列数据。

为便于演示,我们先创建一个名为3.txt的新文本,内容如下:

Tom 25 177cm

John 30 180cm

Lucy 28 165cm

该文件中,每行包含三列数据,分别为人名、年龄和身高,列间以空格分隔。接下来,我们将以此文件为例进行具体操作。

在处理文件3.txt时,printf首先提取第一列和第二列的数据,并确保按照预定的格式进行展示。这里,s和i分别代表字符和数字的输出。显而易见,如果没有指定特定的格式,输出过程将无法进行。

若未指定输出格式,print命令会采用空格作为默认的分隔符,将第一列和第二列的数据串联起来。最后,它会在结尾处添加一个换行符,确保输出的整洁和易读。

除了使用 "{print}" 命令来输出数据外,还可以使用其他的 awk 命令来进行更复杂的数据操作。例如在awk中,同样可以使用某个选项参数来指定分隔符,-F参数就发挥这个作用,我们还是用之前的2.txt来举例简单介绍。

还是以冒号为分隔符,输出2.txt第3列数据。

awk -F ':' '{print $3}' 2.txt

可见此时输出的就是第三列的数据

另外在awk中,BEGIN 是 awk 的关键字之一,用于在 awk 命令执行之前执行一些操作。BEGIN 关键字后面跟着一对大括号,大括号中的代码块会在 awk 命令执行之前执行。在 BEGIN 块中,可以定义变量、执行计算、输出信息等操作。下面我们还是举个例子说明BEGIN的用法,还是将3.txt作为例子,我们可以使用 awk 命令来读取文件并输出文件中每一行的数据,同时输出文件的标题信息。因此在输出文件每一行的数据之前,我们就先得把标题输出出来。这时可以用到BEGIN关键字。

在该命令中,"BEGIN  {print  "Name  Age  Height"}"表示在  awk命令执行之初,预先输出标题信息,"{print  $1,$2,$3}"则代表输出第一、二、三行的数据。

在awk程序中,通过设置FS变量可以指定当前分隔符。在BEGIN阶段定义分隔符,即可与上述示例一样,以冒号为分隔符,输出2.txt文件的第3列数据。以下是具体操作方法:

awk 'BEGIN {FS=":"} {print $3}' 2.txt

"BEGIN {FS=","}" 表示在程序执行之前将 FS 的值设置为逗号,输出结果与之前的例子相同。

awk中还存在一个关键字——END,用于在awk命令执行后执行特定操作,主要涉及打印最终统计结果、输出汇总信息、执行清理操作等后处理任务。END关键字后紧跟一对大括号,其中的代码块会在awk命令执行后执行。以下仍以例子3.txt为例说明END的用法:

若想使用awk命令读取文件并统计文件中年龄总和,可以如此操作:第二列$2存储了年龄数据,通过sum+=$2计算年龄总和,并在程序执行完毕后输出结果。

awk '{sum+=$2} END {print "Sum:" sum}' 3.txt

此时就计算出来了年龄的总和。

在awk命令中,内置变量NR代表当前处理的记录行号。NR在awk命令中的运用广泛,可用于记录行号、统计记录数量、筛选记录等操作。以下以3.txt文件为例进行简要说明:

我们可以使用awk命令读取文件并输出每行数据及对应的行号。此外,"$0"表示当前文本的全部内容。

awk '{print NR". "$0}' 3.txt

此时便输出了当前文本的行号和文本内容。

除了记录行号,NR 还可以用于记录文件的总行数。例如下面的命令可以输出文件的总行数:

如此而来,我们上面用END关键字计算了年龄的总和,现在就可以通过NR内置变量计算平均年龄:

awk '{sum+=$2} END {print "Sum: "sum"\nAvg: "sum/NR}' 3.txt

4. sed

最后,我们将阐述sed命令。sed是一款源自  Unix/Linux系统的流式文本编辑器,主要针对文件执行替换、删除、插入及追加等操作,广泛应用于文本处理和脚本编写。其语法结构如下:

sed [选项参数] [动作] 文件名

sed命令可接受多个命令,各命令间以分号或换行符分隔。

以下介绍sed命令的若干常用选项与操作:

在sed命令中,`-n`选项表示禁止输出。默认情况下,sed命令会将处理后的每一行输出至标准输出,而`-n`选项可抑制此默认行为,仅在命令处理后的行才输出。

若欲读取文件并输出文件中每一行数据,可使用 `p`选项。"p"表示将处理后的每一行输出至屏幕。例如,如下命令可输出`3.txt`文件中的每一行数据:

sed 'p' 3.txt

显然,sed命令在默认情况下呈现了两个相同的结果,这是因为该命令会将每行内容输出两次,一次是处理后的结果,另一次是原始行内容。若仅希望展示经过命令处理的行,可添加"-n"选项。通常,"-n"与p一同使用,以实现该目的。在此命令中,"-n"选项意味着禁止默认输出行为,"p"则表示将处理后的每一行输出到屏幕上。

此外,在sed命令中,"d"代表删除操作,可用于删除指定行或与指定模式匹配的所有行。此命令在文本处理中具有重要意义,可助力删除不必要的行或错误字符,从而便于处理正确数据。以下以3.txt为例,说明d命令的使用:若要删除文件中的第二行记录,可执行如下操作:

可以看到,文件中的第二行记录已经被删除了。除了删除指定的行,"d" 命令还可以与模式匹配结合使用,用于删除所有与模式匹配的行。例如如果我们想删除包含John的行:

还需指出,我们进行的删除操作并非实际删除,而仅仅是将其隐藏。若要实际删除文本内容,需加入-i参数。此处暂不进行演示,后续将继续讲解。

除删除操作外,还设有a和i两项,分别用于在行下方插入新内容和在行上方插入内容。下面将逐一举例说明:

若想在第三行插入其他人物信息,可以这样操作:

倘若我们想在第一行前插入标题信息,可以这样做:

在文本处理中,sed命令的应用可谓灵活多变。当我们希望将文本的某一行的内容替换为特定内容时,可以运用sed命令中的"c"选项,它代表替换操作。以下是将第二行内容替换为其他内容的示例:

在sed命令中,存在一种替换操作,其语法结构如下:

sed 's/old/new/' file.txt

此命令将文件中的old字符串替换为new字符串。

若要将文本中的Lucy内容替换为我们期望的内容,可以采取以下方式:

由此,我们将Lucy的名字替换为King,这种替换方式更具通用性和灵活性。

实际上,上述操作并未对文本内容进行实质性修改。若要对源文件进行修改,必须使用-i参数,它可直接修改文件中的内容。例如,在上面的替换内容中,若打开3.txt发现源文件未发生变化,可以尝试添加-i参数以查看是否可以修改,如下:

可见,文件已成功修改。在先前的讨论中,我们了解到在  sed命令中,"-n"选项表示禁绝对默认输出行为,仅在命令处理后的行才予以输出。此外,"-n"选项还可与搜索模式结合使用,以便查找包含指定模式的行。我们可以运用  sed命令读取文件并搜索包含  "John"  的行,示例如下:

该命令中,我们指定了"/John/"作为搜索模式,用于查找包含"John"的行。参数"p"则负责将匹配到的行输出到屏幕上。从输出结果中可以看到,只有包含"John"的那一行被打印出来。在sed命令中,我们还可以利用"-e"选项来添加多个命令。这个选项允许我们将多个命令通过分号或换行符进行分隔,从而实现一连串的操作。例如,我们可以将替换文本和搜索输出合并为单个命令,以便同时进行查找和替换操作:

sed -i 's/Lucy/King/' 3.txt  

sed -n '/John/p' 3.txt

sed  -e  -i 's/Lucy/King/'  -e '/John/p' 3.txt

通过对本文的学习,我们希望读者能够掌握shell处理批量数据的基本方法,并在实际工作中运用这些知识。

  • 53
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: hbase-shell命令是HBase提供的一个交互式命令行工具,用于管理HBase数据库。通过hbase-shell命令,可以执行各种操作,如创建表、插入数据、查询数据、删除数据等。同时,hbase-shell还支持HBase的各种高级功能,如过滤器、计数器等。使用hbase-shell命令可以方便地管理HBase数据库,提高工作效率。 ### 回答2: HBase是一个高性能、分布式的NoSQL数据库,它的存储结构是基于列族的,并且可以处理非常海量的数据。HBase中内置了一个HBase Shell命令行工具,它可以用来快速操作HBase数据库。以下是一些常用的HBase Shell命令。 1. 查看帮助信息 使用help命令可以查看HBase Shell的帮助信息,可以使用help <command>查看某个具体命令的帮助信息。 2. 连接HBase数据库 使用connect命令可以连接到HBase数据库,例如:connect 'localhost'。 3. 列出表 使用list命令可以列出所有表,例如:list。 4. 创建表 使用create命令可以创建表,例如:create 'table_name', 'family1', 'family2'。 5. 查看表结构 使用describe命令可以查看表结构,例如:describe 'table_name'。 6. 删除表 使用drop命令可以删除表,例如:disable 'table_name',然后使用drop 'table_name'。 7. 插入数据 使用put命令可以插入数据,例如:put 'table_name', 'row_key', 'family1:column1', 'value1'。 8. 获取数据 使用get命令可以获取数据,例如:get 'table_name', 'row_key'。 9. 删除数据 使用delete命令可以删除数据,例如:delete 'table_name', 'row_key', 'family1:column1'。 10. 批量操作 使用批量操作命令,可以批量插入、获取、删除数据,例如:batch 'table_name', [ { 'delete' => 'row_key', 'column' => 'family:column' }, { 'put' => 'row_key', 'column' => 'family:column', 'value' => 'value' }, { 'get' => 'row_key' } ] 以上是一些常用的HBase Shell命令,可以帮助用户快速操作HBase数据库。在实际使用过程中,还可以结合编程语言(如Java)使用HBase客户端API来操作HBase数据库。 ### 回答3: HBase-shell命令是Apache HBase数据库的交互式命令行界面,使用它可以进行HBase数据库的数据查询、插入和更新等操作。该命令支持的操作包括表的管理、数据的 CRUD 操作、Scan、Filter 等。 一、表管理: 通过hbase shell,可以将HBase的表进行管理操作。首先创建一个新表的话,需要为其指定表名,列簇和列。创建表时,列簇和列是必须参数,不能缺少。 1、 创建表 hbase(main):001:0> create 'testtable', 'colfamily' 输出: 0 row(s) in 1.5540 seconds 2、 删除表 hbase(main):001:0> drop '[table name]' 3、 关闭表 hbase(main):002:0> disable '[table name]' 4、 启用表 hbase(main):003:0> enable '[table name]' 5、 列出所有表 hbase(main):004:0> list 输出: testtable 二、数据CRUD操作: 1、查询数据 hbase(main):001:0> get '[table name]', '[row key]' 2、 插入数据 hbase(main):002:0> put '[table name]', '[rowkey]', '[columnfamily:column]', '[value]' 3、 批量插入数据 hbase(main):003:0> put '[table name]', '[rowkey]', '[columnfamily:column]', '[value]', timestamp 4、 删除数据 hbase(main):004:0> delete '[table name]', '[row]', '[column]', '[value]', timestamp 5、 批量删除数据 hbase(main):005:0> deleteall '[table name]', '[row]', '[columnfamily]' 6、 查询指定行键范围的数据 hbase(main):006:0> scan 'testtable', {STARTROW => 'row1', ENDROW => 'row2'} 三、Scan操作: 在HBase表中,Scan操作被定义为基于行的迭代器的集合。以下是一些常用的scan操作。 1、 扫描整个表 hbase(main):006:0> scan 'testtable' 2、 根据指定的列扫描整个表 hbase(main):007:0> scan 'testtable', {COLUMNS => ['colfamily', 'col']} 输出: row1 colfamily:col1 value1 row2 colfamily:col2 value2 row3 colfamily:col3 value3 3、 根据指定的行扫描整个表 hbase(main):008:0> scan 'testtable', {ROWPREFIXFILTER => 'row1'} 输出: row1 colfamily:col1 value1 row1 colfamily:col2 value2 row1 colfamily:col3 value3 4、 根据指定的列和行扫描整个表 hbase(main):009:0> scan 'testtable', {FILTER => "(PrefixFilter('row') AND (QualifierFilter (>=,‘binary:col:')))"} 输出: row1 colfamily:col1 value1 row1 colfamily:col2 value2 row1 colfamily:col3 value3 综上所述,HBase-shell命令是操作HBase数据库的一个重要工具,可用于管理表和进行数据的读写删除等操作。尤其是对于非Java开发人员,HBase-shell命令的简单操作可以减少学习和使用HBase的难度,提高工作效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值