目录
grep介绍
查找文件里符合条件的字符串
一、祖传搭配
这里先列举出常用的搭配,用熟了后可以不过脑子直接写出
grep -i "abc" # 忽略大小写
grep -w "abc" # 完全匹配
grep -v "xx" # 不包含某项 即反选
grep -e "word1" -e "word2" # 多条件满足任意
grep -Po '"code":\K\d+' # 提取字符串需要提取的字符前加\K
二、语法参数
1.语法
grep [-abcEFGhHilLnqrsvVwxy]
[-ABC<显示行数>][-d<进行动作>]
[-e<范本样式>][-f<范本文件>][范本样式]
[文件或目录...]
语法解析
我们按行区分,每行都有代表的意思,详解如下:
第一部分 [-abcEF..]
就是常规参数,参数自解释不用带value
第二部分 ABC参数
和Linux文本输出类的命令(如tail、head)一样
A代表after-context 长参数可用 --after-context=<显示行数>
B代表before-context 长参数可用 --before-context=<显示行数>
B代表context 简写 -c=<显示行数> 长参数可用--context=<显示行数>
第三部分 范本样式
-e 后接 范本样式,就是匹配模式,加不加这个参数都可
-f 如果匹配模式比较复杂,可以写到文件里。这个参数和 sed、awk含义相同
第四部分 文本
最后也就是我们的待匹配的文本了
2.常用参数
这里只介绍部分常用的
-i --ignore-case 忽略字符大小写的差别
-o --only-matching 只显示匹配PATTERN 部分
-v --invert-match 显示不包含匹配文本的所有行
-E --extended-regexp 将样式为延伸的正则表达式来使用
-G --basic-regexp 将样式视为普通的表示法来使用
3.常见搭配
这里给出常见的几种需求
1、多条件满足任意一项即可
echo "word2" | grep -E "word1|word2|word3" # 结果匹配
echo "word3" | grep -E "word1|word2|word3" # 结果匹配
echo "word2" | grep -e "word1" -e "word2" -e "word3" # 或者直接接多个条件 结果匹配
2、多条件同时满足才匹配
echo "word1 word2 word3" |grep word1 |grep word2 |grep word3 # 匹配
echo "word1 word2 word4" |grep word1 |grep word2 |grep word3 # 不匹配
3、完全匹配
echo "abcfd" |grep "abc" # 普通模式 结果匹配
echo "abcfd" |grep -w "abc" # 全匹配 结果不匹配
echo "abcfd" |grep -w "abcf[a-z]" # 全匹配 最后一个需要时小写字符 结果匹配
4、只输出匹配的部分
$ echo "abcfd" |grep -o "abc" # 普通模式 结果匹配
abc
字符串提取与 -P参数
-o可以只打印我们匹配的结果,但如果我们逻辑复杂一些,需要匹配到字符然后从中提取所需字符怎么办呢?
可就是只想提取我们匹配的中一部分
如果我们只需JSON格式 code对应的数字,如下:
$ echo '{"code":100}' | grep -Po '"code":\K\d+'
100
$ echo '{"code":100}' | grep -Eo '"code":\d+' # 无输出
$
第二个语句在CentOS 7、Ubuntu环境下没有任何输出
但为什么-P可以匹配?它代表什么含义呢?正则表达式是支持\d匹配数字的写法的啊?!
原来这和系统所使用的正则表达式引擎有关
当时在CentOS下面,grep -E主要是用来支持扩展正则表达式,比如|、&这些符号,用于grep多条件查询,并非是使用标准正则表达式。在shell下面man grep看了下,加上-P(使用Perl的正则引擎)即可过滤出目标数据
但是在MAC OS下面man grep是可以不适用-P参数的,为什么?因为新的主流正则引擎已经默认加上了-P参数了
\K 代表含义
\K 是 (?<=pattern) 更高效的简写,在所需断言的语句前加上可以
(?<=pattern) 是正则比较高级的写法,这里坐下简单解释:
首先()表示捕获分组,()会把每个分组里的匹配的值保存起来,从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推
(?<=pattern) 代表反向(look behind)肯定预查,就是捕获以pattern开头的内容xxx
例如,"(?<=95|98|NT|2000)Windows
" 能匹配"2000Windows
"中的"Windows
",但不能匹配"3.1Windows
"中的"Windows
"
也就是说"Windows" 的匹配依赖于它前面的型号是否能匹配上,只有型号和"Windows"字符都匹配了才能匹配
详见参考资料:
https://unix.stackexchange.com/questions/13466/can-grep-output-only-specified-groupings-that-match
字符串提取法2
$ echo '{"code":100}' | sed -n 's/.*"code":\([0-9]*\).*/\1/g'
100
sed使用正则捕获可以获取
但是如果在文件中替换并输出不太行
三、总结