Shell 编程之正则表达式与文本处理器

最新推荐文章于 2024-07-11 17:44:47 发布

最新推荐文章于 2024-07-11 17:44:47 发布

文章标签：正则表达式 mysql 数据库

读取:sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间，pattern space)。
执行:默认情况下，所有的sed 命令都在模式空间中顺序地执行，除非指定了行的地址，否则 sed 命令将会在所有的行上依次执行。
显示:发送修改后的内容到输出流。在发送数据后，模式空间将会被清空在所有的文件内容都被处理完成之前，上述过程将重复执行，直至所有内容被处理完。

-e或--expression=:表示用指定命令或者脚本来处理输入的文本文件
-f或--file=:表示用指定的脚本文件来处理输入的文本文件。
-h或--help:显示帮助。
-n、--quiet或silent:表示仅显示处理后的结果
-i:直接编辑文本文件。

a:增加，在当前行下面增加一行指定内容。
c:替换，将选定行替换为指定内容。
d:删除，删除选定的行。
i:插入，在选定行上面插入一行指定内容。
p:打印，如果同时指定行，表示打印指定行;如果不指定行，则表示打印所有内容;如果有非打印字符，则以 ASCI 码输出。其通常与“-n”选项一起使用。
s:替换，替换指定字符。
y:字符转换。

H:复制到剪贴板;
g,G:将剪贴板中的数据覆盖/追加至指定行;
w:保存为文件;
r:读取指定文件;
a:追加指定内容

FS:指定每行文本的字段分隔符，默认为空格或制表位。
NF:当前处理的行的字段个数。
NR:当前处理的行的行号(序数)。
$0:当前处理的行的整行内容。
$n:当前处理行的第n个字段(第n列)
FILENAME:被处理的文件名。
RS:数据记录分隔，默认为\n，即每行为一条记录。

-f:忽略大小写;
-b:忽略每行前面的空格;
-M:按照月份进行排序;
-n:按照数字进行排序:
-r:反向排序;
-u:等同于 unig，表示相同的数据仅显示一行;
-t:指定分隔符，默认使用[Tab]键分隔;
-0<输出文件>:将排序后的结果转存至指定文件;
-k:指定排序区域。

-C:进行计数;
-d:仅显示重复行;
-u:仅显示出现一次的行。

-c:取代所有不属于第一字符集的字符;
-d:删除所有属于第一字符集的字符;把连续重复的字符以单独一个字符表示:
-t:先删除第一字符集较第二字符集多出的字符。

21
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
Shell 编程之正则表达式与文本处理器

一、正则表达式概念1、正则表达式的定义正则表达式又称正规表达式、常规表达式。在代码中常简写为regex、regexp 或 RE正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，简单来说是一种匹配字符串的方法,通过一些特殊符号,实现快速查找、删除、替换某个特定字符串。正则表达式是由普通字符与元字符组成的文字模式。模式用于描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。其中普通字符包括大小写字母、数字、标点符号
复制链接

扫一扫

Shell 编程之正则表达式与文本处理器

一、正则表达式概念

1、正则表达式的定义

2、正则表达式用途

对于一般计算机用户来说，由于使用到正则表达式的机会不多，所以无法体会正则表达式的魅力，而对于系统管理员来说，正则表达式则是必备技能之一。

除邮件服务器之外，很多服务器软件都支持正则表达式。虽然这些软件都支持正则表达式，不过字符串的对比规则还需要系统管理员来添加，因此正则表达式是系统管理员必须掌握的技能之一。

二、基础正则表达式

1.基础正则表达式示例

下面的操作需要提前准备一个名为 test.txt 的测试文件，文件具体内容如下所示。

(1)查找特定字符

若反向选择，如查找不包含“the”字符的行，则需要通过 grep 命令的“-v"选项实现，并配合“-n”一起使用显示行号。

(2)利用中括号“口”来查找集合字符

若要查找包含重复单个字符“oo”时，只需要执行以下命令即可

若查找“o0”前面不是“w”的字符串，只需要通过集合字符的反向选择“[^]"来实现该目的。例如执行“grep -n'[^w]oo'test.txt"命令表示在 test.txt 文本中查找“00"前面不是"w"的字符串

查找包含数字的行可以通过“grep -n'[0-9]'test.txt”命令来实现。

（3）查找行首 “^” 与行尾字符 “$”

基础正则表达式包含两个定位字符：“^” (行首) 与 “$” (行尾) 。 在上面的示例中，查询“the”字符串时出现了很多包含“the”的行，如果想要查询以“the”字符串为首的行，则可以通过“^”元字符来实现。

查询以小写字母开头的行可以通过“^[a-z]"规则来过滤，查询大写字母开头的行则使用“^[A-Z]"规则，若查询不以字母开头的行则使用“^[^a-zA-Z]”规则。

当查询空白行时，执行“grep -n“$'test.txt”命令即可。

(4)查找任意一个字符“.”与重复字符“*”

前面提到，在正则表达式中小数点(.)也是一个元字符，代表任意一个字符。例如执行以下命令就可以査找“w??"的字符串，即共有四个字符，以 w开头 d结尾。

查询以w开头d结尾，中间包含至少一个o的字符串，执行以下命令即可实现。

执行以下命令即可查询以w开头d结尾，中间的字符可有可无的字符串

执行以下命令即可查询任意数字所在行。

(5)查找连续字符范围“{}

① 查询两个o的字符。

查询以w开头以 d结尾，中间包含2~5个o的字符串:

查询以w开头以d结尾，中间包含2个或2个以上o的字符串。

2.元字符总结 通过上面几个简单的示例,可以了解到常见的基础正则表达式的元字符主要包括以下几个，如表所示。

三、 扩展正则表达式

三、1、 文本处理器

在 Linux/NIX 系统中包含很多种类的文本处理器或文本编辑器,其中包括我们之前学习过的 VIM 编辑器与 grep 等。而 grep,sed,awk 更是 Shell 编程中经常用到的文本处理工具被称之为 Shell 编程三剑客。

三.2 sed 工具

读取:sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间，pattern space)。

执行:默认情况下，所有的sed 命令都在模式空间中顺序地执行，除非指定了行的地址，否则 sed 命令将会在所有的行上依次执行。

显示:发送修改后的内容到输出流。在发送数据后，模式空间将会被清空在所有的文件内容都被处理完成之前，上述过程将重复执行，直至所有内容被处理完。

注意:默认情况下所有的 sed 命令都是在模式空间内执行的，因此输入的文件并不会发生任何变化，除非是用重定向存储输出。

1.sed 命令常见用法

常见的 sed 命令选项主要包含以下几种。

-e或--expression=:表示用指定命令或者脚本来处理输入的文本文件

-f或--file=:表示用指定的脚本文件来处理输入的文本文件。

-h或--help:显示帮助。

-n、--quiet或silent:表示仅显示处理后的结果

-i:直接编辑文本文件。

a:增加，在当前行下面增加一行指定内容。

c:替换，将选定行替换为指定内容。

d:删除，删除选定的行。

i:插入，在选定行上面插入一行指定内容。

p:打印，如果同时指定行，表示打印指定行;如果不指定行，则表示打印所有内容;如果有非打印字符，则以 ASCI 码输出。其通常与“-n”选项一起使用。

s:替换，替换指定字符。

y:字符转换。

2.用法示例

在本小节中依旧以 test.txt 文件为例进行演示。

(1)输出符合条件的文本(p表示正常输出)

替换符合条件的文本 在使用 sed 命令进行替换操作时需要用到s(字符串替换)、c(整行/整块替换)、y字符转换)命令选项，常见的用法如下所示。

迁移符合条件的文本

在使用 sed 命令迁移符合条件的文本时，常用到以下参数:

H:复制到剪贴板;

g,G:将剪贴板中的数据覆盖/追加至指定行;

w:保存为文件;

r:读取指定文件;

a:追加指定内容

具体操作方法如下所示。

四、 awk 工具

1.awk 常见用法

通常情况下 awk 所使用的命令格式如下所示，其中，单引号加上大括号"。”用于设置对数据进行的处理动作。awk可以直接处理目标文件，也可以通过“-f"读取脚本对目标文件进行处理。

awk 包含几个特殊的内建变量(可直接用)如下所示:

FS:指定每行文本的字段分隔符，默认为空格或制表位。

NF:当前处理的行的字段个数。

NR:当前处理的行的行号(序数)。

$0:当前处理的行的整行内容。

$n:当前处理行的第n个字段(第n列)

FILENAME:被处理的文件名。

RS:数据记录分隔，默认为\n，即每行为一条记录。

2.用法示例

(1)按行输出文本

sort 工具

-f:忽略大小写;

-b:忽略每行前面的空格;

-M:按照月份进行排序;

基础正则表达式包含两个定位字符：“^” (行首) 与 “$” (行尾) 。在上面的示例中，查询“the”字符串时出现了很多包含“the”的行，如果想要查询以“the”字符串为首的行，则可以通过“^”元字符来实现。

2.元字符总结
通过上面几个简单的示例,可以了解到常见的基础正则表达式的元字符主要包括以下几个，如表所示。

三、扩展正则表达式

三、1、文本处理器

替换符合条件的文本
在使用 sed 命令进行替换操作时需要用到s(字符串替换)、c(整行/整块替换)、y字符转换)命令选项，常见的用法如下所示。