grep:
linux上文本处理的三剑客
grep:文本过滤(pattern)工具
grep,egrep,fgrep
sed:seream deitor,文本编辑工具
awk:linux,上实现gawk,文本报告生成器
grep:全局搜索正则表达式
作用:文本搜索工具,根据用户指定的“模式"文本逐行进行匹配检查,打印匹配到的行;
模式:由正则表达式字符及文本字符所编写的过滤条件;
正则表达式:由一个特殊字符及文本字符所编写的模式,其中有些字符不表示字符的字面意义,而表示控制或通配的功能。
分两类:
基本正则表达式:BRE
扩展正则表达式:ERE
grep默认支持基本正则表达式,如需扩展就是egrep,或grep -E
正则表达式引擎:
检查匹配与否的软件
grep [option] patiern [file]...
eg:grep root /etc/passwd 在passwd内查找root字符,centos7会以高亮显示.
选项:
--color=auto 对匹配到文本着色显示。
-v:显示不能够被patiern匹配到的行。
-i:匹配忽略字符大小写
-o:仅显示匹配到的字符串本身
-q:检查输出后不向屏幕输入任何信息。
-A #:显示匹配到的行后面#行
-B #: 显示匹配到的行前面#行
-C #: 显示匹配到的行前后#行
-E:使用扩展正则表达式
基本的正则表达式元字符:
字符匹配:
.:匹配任意单个字符;
eg:grep 's...n' 寻找s和n中间出现三个字符的。
[]:匹配指定范围内的任意单个字符
[^]:匹配指定范围外的任意单个字符
[:digit:] 所有数字 [:lower:] 所有小写 [:upper:] 所有大写 [:alpha:] 所有字符大小写 [:alnum:] 所有数据和字母 [:space:] 空格
匹配次数:用在指定次数的字符后面,用于指定前面的字符要出现的次数
*:匹配前面的字符任意次数,
eg:grep 'x*y' 匹配y前面0个或者多个x
.*:任意长度的任意字符
\?:\为转义:匹配其前面字符0次或者1次,前面字符如果有不能超过1次
\+:前面字符至少出现一次,前面字符最少一次。
\{m\}:匹配前面的字符m次,精确出现次数。
\{m,n\}:匹配前面字符至少出现m次,至多n次。
\{0,n\}:匹配前面字符最多n次,可没有
\{m,\}:匹配前面的字符至少m次
位置锚定
^:行首锚定:用于模式的最左侧
$:行尾锚定:用于模式的最右侧
^patiern$:用于模式匹配整行。
^$:空行
^[[:space:]]*$:显示0个以上的空格。
\< 或 \b :词首锚定:用于单词模式的左侧。
\> 或 \b :词尾锚定:用于单词模式的右侧。
\<pariern\>:匹配整个单词
分组:
\(\):将一个或多个字符捆绑在一起,当作一个整体进行处理
\(xy\)*匹配整个单词。
note:分组括号 中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中。这些变量的命名方式为:\1,\2,\3...
1\:从左侧起,第一个左括号以及与之匹配右括号之间的模式所匹配到的字符
\(ab\+\(xy\)*
\1:ab\+\(xy\)*
\2:xy
后向引用:引用前面的分组括号中模式所匹配字符