Linux文本处理之搜索命令 grep详解

 

目录

grep介绍

一、祖传搭配

二、语法参数

1.语法

第一部分  [-abcEF..]

第二部分   ABC参数

第三部分 范本样式

第四部分 文本

2.常用参数

3.常见搭配

字符串提取与 -P参数

\K 代表含义

三、总结


 


grep介绍

查找文件里符合条件的字符串


 

一、祖传搭配

这里先列举出常用的搭配,用熟了后可以不过脑子直接写出

grep -i "abc"                      # 忽略大小写
grep -w "abc"                      # 完全匹配 
grep -v "xx"                       # 不包含某项 即反选
grep -e "word1" -e "word2"         # 多条件满足任意
grep -Po '"code":\K\d+'            # 提取字符串需要提取的字符前加\K

 

 

二、语法参数

1.语法

grep [-abcEFGhHilLnqrsvVwxy]
[-ABC<显示行数>][-d<进行动作>]
[-e<范本样式>][-f<范本文件>][范本样式]
[文件或目录...]

语法解析

我们按行区分,每行都有代表的意思,详解如下:

第一部分  [-abcEF..]

就是常规参数,参数自解释不用带value

第二部分   ABC参数

和Linux文本输出类的命令(如tail、head)一样

A代表after-context      长参数可用  --after-context=<显示行数>

B代表before-context   长参数可用  --before-context=<显示行数>

B代表context    简写 -c=<显示行数>            长参数可用--context=<显示行数>

第三部分 范本样式

-e 后接 范本样式,就是匹配模式,加不加这个参数都可

-f   如果匹配模式比较复杂,可以写到文件里。这个参数和 sed、awk含义相同

第四部分 文本

最后也就是我们的待匹配的文本了

 

2.常用参数

这里只介绍部分常用的

-i   --ignore-case    忽略字符大小写的差别

-o   --only-matching   只显示匹配PATTERN 部分

-v   --invert-match   显示不包含匹配文本的所有行

 

-E --extended-regexp   将样式为延伸的正则表达式来使用

-G --basic-regexp  将样式视为普通的表示法来使用

 

3.常见搭配

这里给出常见的几种需求

1、多条件满足任意一项即可
echo "word2" | grep -E "word1|word2|word3" # 结果匹配
echo "word3" | grep -E "word1|word2|word3" # 结果匹配
echo "word2" | grep -e "word1" -e "word2" -e "word3"  # 或者直接接多个条件 结果匹配 


2、多条件同时满足才匹配
echo "word1 word2 word3" |grep word1 |grep word2 |grep word3 # 匹配
echo "word1 word2 word4" |grep word1 |grep word2 |grep word3 # 不匹配


3、完全匹配
echo "abcfd" |grep "abc"  # 普通模式 结果匹配
echo "abcfd" |grep -w "abc"  # 全匹配 结果不匹配
echo "abcfd" |grep -w "abcf[a-z]"  # 全匹配 最后一个需要时小写字符  结果匹配

4、只输出匹配的部分
$ echo "abcfd" |grep -o "abc"  # 普通模式 结果匹配
abc

 

字符串提取与 -P参数

-o可以只打印我们匹配的结果,但如果我们逻辑复杂一些,需要匹配到字符然后从中提取所需字符怎么办呢?

可就是只想提取我们匹配的中一部分

如果我们只需JSON格式 code对应的数字,如下:
$ echo '{"code":100}' | grep -Po '"code":\K\d+'
100

$ echo '{"code":100}' | grep -Eo '"code":\d+'  # 无输出
$

第二个语句在CentOS 7、Ubuntu环境下没有任何输出

但为什么-P可以匹配?它代表什么含义呢?正则表达式是支持\d匹配数字的写法的啊?!

 

原来这和系统所使用的正则表达式引擎有关

当时在CentOS下面,grep -E主要是用来支持扩展正则表达式,比如|、&这些符号,用于grep多条件查询,并非是使用标准正则表达式。在shell下面man grep看了下,加上-P(使用Perl的正则引擎)即可过滤出目标数据

但是在MAC OS下面man grep是可以不适用-P参数的,为什么?因为新的主流正则引擎已经默认加上了-P参数了

 

\K 代表含义

 

\K 是 (?<=pattern) 更高效的简写,在所需断言的语句前加上可以

(?<=pattern) 是正则比较高级的写法,这里坐下简单解释:

首先()表示捕获分组,()会把每个分组里的匹配的值保存起来,从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推

 

(?<=pattern) 代表反向(look behind)肯定预查,就是捕获以pattern开头的内容xxx

例如,"(?<=95|98|NT|2000)Windows"   能匹配"2000Windows"中的"Windows",但不能匹配"3.1Windows"中的"Windows"

也就是说"Windows" 的匹配依赖于它前面的型号是否能匹配上,只有型号和"Windows"字符都匹配了才能匹配

 

详见参考资料:

https://unix.stackexchange.com/questions/13466/can-grep-output-only-specified-groupings-that-match

 

 

字符串提取法2

$ echo '{"code":100}' |  sed -n 's/.*"code":\([0-9]*\).*/\1/g'
100

sed使用正则捕获可以获取

但是如果在文件中替换并输出不太行


三、总结

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值