linux egrep和grep区别,Linux文本处理工具grep和正则表达式及egrep与grep区别

文本处理工具grep,正则表达式在Linux学习过程中很容易出现困惑与障碍的地方,这里分享下学习这方面内容的一些感受。

grepGlobal search REgular expression and Print out the line

作用:文本搜索工具,根据用户指定的‘模式(过滤条件)’对目标文本逐行进行匹配检查;打印匹配到的行;

‘模式’:由正则表达式的元字符及文本字符所编写出的过滤条件。

grep [OPTIONS] PATTERN [FILE...]

grep [OPTIONS] [-e PATTERN | -f FILE] [FILE...]

常用选项:

-i:忽略字符大小写

-o:仅显示匹配到的字符串本身

-v:显示不能被模式匹配到的行

-E:支持扩展正则表达式元字符

-q:静默模式,匹配不显示

-A#:after,显示匹配条件所在行的后#行

-B#:before,显示匹配条件所在行的前#行

-C#:context,显示匹配条件所在行的前后#行

-n:显示匹配的行号(用的较少)

-c: 统计匹配的行数(用的较少)

下面以几个小实验对grep的用法及选项做下具体的演示

实验目录/test 文本/test/head

cad0e23edc0d10cf2358cb41b4f90fc6.gif

正则表达式:Regual Expression,REGEXP

它由一类特殊字符及文本字符所编写的模式,其中有些字符不表示其字面意义,而是用于表示控制或通配的功能。

它分两类:基本正则表达式BRE、扩展正则表达式ERE

基本正则表达式元字符:

包括:字符匹配、匹配次数、位置锚定、分组

字符匹配:

.:匹配任意单个字符;        [] :匹配指定范围内的任意单个字符

[^]:匹配指定范围外的任意单个字符

常用集合:[:digit:]、[:lower:]、[:upper:]、[:alpha:]、[:alnum:]、[:punct:]、[:space:]

99db9499c1351abb0b32f43968020e3d.gif

32962d342d7878287705d78f0eb384f0.gif

3a7f1f62f13b762a1ed4a6da320a3b6f.gif

匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数

*:匹配前面的字符任意次,包括0次;贪婪模式:尽可能长的匹配

.*:任意长度的任意字符

\?:匹配其前面的字符0或1次

\+:匹配其前面的字符至少1次

\{m\}:匹配前面的字符m次

\{m,n\}:匹配前面的字符至少m次,至多n次

\{,n\}:匹配前面的字符至多n次

\{m,\}:匹配前面的字符至少m次

9839558887aa89d993eb41d2fe132e9b.gif

位置锚定:定位出现的位置

^:行首锚定,用于模式的最左侧

$:行尾锚定,用于模式的最右侧

^PATTERN$: 用于模式匹配整行

^$: 空行

^[[:space:]]*$:空白行

单词:非特殊字符组成的连续字符在Linux看来都称单词

\< 或\b:词首锚定,用于单词模式的左侧

\> 或\b:词尾锚定;用于单词模式的右侧

\:匹配完整的单词

63de8dfea8620bdf413dcb03791e196c.gif

1、查找以for开头的行

5725dc011a36b6639df2304b4fdcd0fd.gif

2、检索只含有for的字符串;检索含有for的内容

702db525253c768b0f35c69f6fd8c4c8.gif

3、检索以for结尾的行;检索以for结尾的字符串

01a8986ad879da4bae8260a37deed49d.gif

分组:\(\):将一个或多个字符捆绑在一起,当作一个整体进行处理,如:\(root\)\+

分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名方式为: \1, \2, \3, ...

\1: 从左侧起,第一个左括号以及与之匹配右括号之间的模式所匹配到的字符;

实例:\(string1\+\(string2\)*\)

\1: string1\+\(string2\)*

\2: string2

后向引用:引用前面的分组括号中的模式所匹配字符(而非模式本身)

13339f9b894187d1e0c7e75aeca432ed.gif

上述命令意思是检索包含有for字符串后跟任意字符且出现一次,连续出现上述情况两次截取结果。后面的\1是重复第一个括号内的检索对象。

egrep= grep -E

egrep[OPTIONS] PATTERN [FILE...]

扩展正则表达式的元字符:

字符匹配:同基本正则表达式

次数匹配:

*:匹配前面字符任意次

?: 0或1次

+:1次或多次

{m}:匹配m次

{m,n}:至少m,至多n次

位置锚定:同基本正则表达式

分组:

()

后向引用:\1, \2, ...

或者:

a|b

C|cat: C或cat

(C|c)at:Cat或cat

最后我们通过9个例子来感受grep与正则表达式结合所能实现的功能

1、显示/proc/meminfo文件中以大小s开头的行

5bea04ceb551b1231de82ca7778a1165.gif

这个只需要知道grep的选项i就能轻松解决。

2、显示/etc/passwd文件中不以/bin/bash结尾的行

dc74649304b66740a310cd0648d4b363.gif

先使用grep检索出包含有以“/bin/bash”结尾的行,再使用grep的-v取不以上面结果的行。类似数学中的补集效果。

3、找出ifconfig命令结果中本机的所有IPv4地址

6284eb3c91fa10a7b84b202afc2c795b.gif

这个分为三步:

1)通过grep锁定包含有IPV4的行,这个通过分析ifconfig列出的信息可以看出规律,只要包含有IPv4的开头都有inet这个字母,所以我们只需要检索它就行了

2)接下来使用tr将所有空替换为“:”并压缩

3)使用cut实现结果。

4、查出分区空间使用率的最大百分比值

7ce7bea09dff3be0973318bc01fccb9a.gif

aed180abf398054d1318b2b47817a43c.gif

这个大致分6步:

1)过滤汉字

2)使用tr替换所有空为":"并压缩

3)使用cut剪切出含有使用率百分比的数值

4)再次使用tr剔除%

5)使用sort按数值大小写排序

6)使用tail取出最大值

5、显示用户rpc默认的shell程序

e15d688f47453a6ff0dc653aa27e6a88.gif

上面的检索条件是以rpc为行首且以它为字符结尾的行

6、找出/etc/passwd中的两位或三位数

99a20bbf5af1a526940abaef7b18da11.gif

这里使用的是扩展正则表达式因为可以是表达式更简洁

这里需要注意的是要以两位或三位数为字符串,这需要对其进行开头与结尾的字符锚定

7、找出/etc/rc.d/init.d/functions文件中行首为某单词(包括下划线)后面跟一个小括号的行

b17c7735e80b36276024c1631789d76e.gif

当我们想好要过滤的条件后,要对其进行行首及字符的锚定,否则会导致条件范围不严谨

这里要注意的是.*\>\(\),如果这里改写为.*\(\)\>则会失败,具体可以自己想想。其实.*已经包括了"()",所以后面的是重复的,这样就容易出错。

8、使用egrep取出/etc/rc.d/init.d/functions中其基名

d378704d006bf6ef97c47613af1e20b7.gif

a3821d3922fc031c2095da2c26e51a8d.gif

上面是两种方法,一种利用grep直接检索出来,另一种的思想是分割。各有特点

9、利用扩展正则表达式分别表示0-9、10-99、100-199、200-249、250-255

\:0-9

\:10-99

\<1[0-9][0-9]\> | \<1[0-9]{2}\>:100-199

\<2[0-4][0-9]\> :200-249

\<25[0-5]\>:250-255

上面只是对grep及正则表达式的简要总结,不过只要掌握好这基本的内容自己也就可以进行更深入的学习了。

0b1331709591d260c1c78e86d0c51c18.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值