正则表达式概述


一、正则表达式概述

  • 正则表达式,又称规则表达式。(英语:Regular Expression),在代码中常简写为regex、regexp
    或RE,计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合以某个模式(规则)的文本。

  • 正则表达式不只有一种,而且 linux中不同的程序可能会使用不同的正则表达式,如:工具:grep sed awk egrep

  • 正则表达式—通常用于判断语句中,用来检查某一字符串是否满足某一格式正则表达式是由普通宁字符与元宁符组成

  • 普通字符包括大小写字母、数字、标点符号及一些其他符号
    元字符是指在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式

  • LINUX 中常用的有两种正则表达式引擎

    基础正则表达式:BRE
    扩展正则表达式:ERE

1.1正则表达式定义

  • 正则表达式,又称正规表达式、常规表达 式

  • 使用字符串来描述、匹配一系列符合某个规则的字符串

  • 正则表达式组成

    普通字符
    大小写字母、数字、标点符号及一些其他符号元字符
    在正则表达式中具有特殊意义的专用字符

1.2正则表达式层次

  • 基础正则表达式

  • 扩展正则表达式

1.3Linux中文本处理工具

  • grep
  • egrep
  • sed
  • awk

1.4基础正则表达式元字符

  • 基础正则表达式是常用的正则表达式部分
  • 除了普通字符外,常见到以下元字符

\ :转义字符,\ ! 、\n等
^ :匹配字符串开始的位置例: ^ a、^ the、^#
$ :匹配字符串结束的位置例: word$
. :匹配除\n之外的任意的一个字符例: go.d 、g…d

  • 常见元字符(续)

* :匹配前面子表达式o次或者多次
例: goo*d、’ go.*d
[list]:匹配list列表中的一个字符
例: go[ola]d,[abc]、[a-z]、[a-zO-9]
[^list]:匹配任意不在list列表中的一个字符
例:[^a-z]、[^O-9]、[^A-Z0-9]
\{n,m\}:匹配前面的子表达式n到m次,有\{n\}、\{n,\}、\{n,m\}三种格式
例: go\{2\}d、go\{2,3\}d、go\{2,\}d

  • 扩展正则表达式元字符
  • 扩展正则表达式是对基础正则表达式的扩充深化扩展元字符

+:匹配前面子表达式1次以上
例: go+d,将匹配至少一个o
?:匹配前面子表达式0次或者1次
例: go?d,将匹配gd或god
():将括号中的字符串作为一个整体
例:(xyz)+,将匹配xyz整体1次以上,如xyzxyz
|:以或的方式匹配字条串
例1: good|food,将匹配good或者food
例2: g(oo|la)d,将匹配good或者glad

二、演示

2.1 grep[选项]…查找条件目标文件

-E:开启扩展(Extend的正则表达式
-c : 计算找到”搜寻字符串“的次数
-i :忽略大小写的不同,所以大小写视为相同
-o :只显示被模式匹配到的字符串
-v﹔反向选择,亦即显示出没有‘搜寻字符串′内容的那一行!(反向查找,输出与查找条件不相符的行)
–color=auto :可以将找到的关键词部分加上颜色的显示喔!
-n :顺便输出行号
-c 只打印匹配的文本行的次数,不显示文本内容。
-h 当搜索多个文件,不显示匹配文件名前缀。
-l 只列出含义匹配的文本行的文件的文件名,不显示其具体匹配的内容
-s 不显示关于不存在或无法读取文件的错误信息
-w 匹配整个单词
-x 匹配整个文本行
-r 递归搜索,不仅搜索当前目录,还有各级子目录
–color=auto 可以将找到的关键词部分加上颜色的显示

2.1.1不区分大小写查找the所有的行

在这里插入图片描述

在这里插入图片描述

2.2 cut :列表截取工具

使用说明:cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。如果不指定 File 参数,cut 命令将读取标准输入。必须指定 -b、-c 或 -f 标志之一

常用选项

选项说明
b按字节截取
c按字符截取,常用于中文
d指定以什么为分隔符截取,默认为制表符
f通常和-d一起

在这里插入图片描述
在这里插入图片描述

2.3 sort 排序工具

sort 是一个以行为单位对文件内容进行排序的工具,也可以根据不同的数据类型来排序。例如数据和字符的排序就不一样

格式
sort [选项] 参数

常用选项与说明

选项说明
t指定分隔符,默认使用[Tab]吧 键或空格分隔
k指定排序区域,哪个区间排序
n按照数字进行排序,默认是以文字形式排序
u等同于 uniq,表示相同的数据仅显示一行,注意:如果行尾有空格去重就不成功
r反向排序,默认是升序,-r就是降序
o将排序后的结果转存至指定文件
f忽略大小写,会将小写的字母都转换为大写字母来进行比较
b忽略每行前面的空格

sort /etc/passwd 不加任何选项默认按第一列升序,字母的话就是从a到z由上而下显示
在这里插入图片描述
在这里插入图片描述

2.4 uniq :去重复工具

主要用于去除连续的重复行

注意:是连续的行,所以通常和sort结合使用先排序使之变成连续的行再执行去重操作,否则不连续的重复行他不能去重

格式
uniq 【选项】 参数

常用选项说明

选项说明
c对重复的行进行计数
d仅显示重复行
u仅显示出现一次的行

示例
[root@localhost ~]# cat shuiguo.txt | uniq -c ##统计重复行的次数,不连续的重复行他不算做重复行

请添加图片描述

比较实用的几个案例
[root@localhost ~]# who ##查看登陆用户
root pts/0 2022-05-06 14:32 (192.168.161.20)
[root@localhost ~]# who | awk ‘{print $ 1}’
root
[root@localhost ~]# who | awk ‘{print $ 1}’ |uniq
root
[root@localhost ~]# who | awk ‘{print $ 1}’ |sort |uniq|grep -v “^$” |grep -v wtmp ##查看登陆过系统的用户
root
[root@localhost ~]# ss -nt |tr -s " "|cut -d " " -f5 |cut -d “:” -f1 |sort |uniq -c ##查看登陆ip和使用者个数
1 192.168.161.20
1 Address
[root@localhost ~]# ss -nta |grep -v ‘State’|cut -d " " -f1 |sort |uniq -c ##查看客户端和监听服务端个数
1 ESTAB
3 LISTEN

2.5 tr 修改工具

它可以用一个字符来替换另一个字符,或者可以完全除去一些字符,也可以用它来除去重复字符

用法:
tr [选项]… SET1 [SET2]

从标准输入中替换、缩减和/或删除字符,并将结果写到标准输出。

常用选项

-d 删除字符

-s 删除所有重复出现的字符,只保留第一个

示例:

[root@localhost ~]# cat shuiguo.txt | tr ‘a-z’ ‘A-Z’ ##小写字母全部替换成大写
在这里插入图片描述
总结
相关的文件操作,只是起到一个方便阅读的作用,并不会改变文件相关配置,可以放心使用

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

搞什么滚去学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值