Linux中的文本处理三剑客:
grep:文本过滤工具(模式:pattern)工具
sed:stream editor。流编辑器;文本编辑工具
awk:Linux上的实现为gawk,文本报告生成器(格式化文本)
grep:
作用:文本搜索工具,根据用户指定的“模式(过滤条件)”对文本逐行匹配检查后打印匹配到的行
grep命令使用格式:
grep [OPTIONS] PATTERN [FILE]
grep [OPTIONS] [-e PATTERN | -f [FILE 1] [FILE2]]
grep 默认在alias中是 grep --color=auto
OPTIONS:
--color=auto 对匹配到的文本着色后高亮显示
-i ignorecase 忽略字符的大小写
-o 仅显示匹配到的字符本身
-v,--invent-match 对匹配的字符行进行反选
-q,--quiet,--silent 对匹配到的字符行不进行打印
-A # after:打印匹配到的字符行的下#行
-B # before:打印匹配到的字符行的上#行
-C # context:打印匹配到的字符行的上下#行
基本正则表达式的元字符:
字符匹配:
( . ) 匹配任意单个字符
grep "r..t" /etc/passwd
( [] )匹配指定范围内的任意单个字符
grep " r[[ :alpha: ]] [[ :alpht ]]t" /etc/passwd
( [^] )匹配指定范围外的任意单个字符
grep "^[[:space]]\+[^[space:]]" /etc/grub2.cfg
PATTERN :
[[ :digitt: ]] 匹配的为 0-9
[[ :lower: ]] 匹配小写
[[ :upper: ]] 匹配大写
[[ :alpha: ]] 匹配任意字母
[[ :alnum: ]] 匹配任意字母和数字
[[ :punct: ]] 匹配任意标点符号
[[ :space: ]] 匹配空白字符
匹配次数:用在要指定出现次数的字符的后面,用于限制其前面字符出现的次数
(*)匹配前面的字符任意次
例如:grep "x*y"
abxy 匹配
aby 匹配
xxxy 匹配
yab 匹配
(.*)匹配任意字符
(\?)匹配0次或者1次 。前面的字符可有可无
(\+)匹配其前面的字符一次或者多次。至少一次
\{m\} 匹配其前面的字符m次。
\{m,n\} 匹配其前面字符至少m次,至多n次
\{0,n\}至多n次
\{m,\}至少m次
位置锚定:
^: 行首锚定;用于模式的最左侧
grep "^root" /etc/passwd
$:行尾锚定:用于模式的最右侧
greo "root$" /etc/passwd
grep "^root$" 只能是这一个单词。
^PATTERN$: 用于PATTERN来匹配整行
^$: 空白行 空格不属于空白行
^[[ :space]]*$ 匹配空行或空白字符的行
\< 单词在最左侧
grep "\<root" /etc/passwd
\>单词在最右侧
grep "root\>" /etc/passwd
\< \>精确锚定单词
grep "\<root\>" /etc/passwd
分组及引用:
\(\) 将一个或多个字符捆绑在一起,当作一个整体进行处理
\(xy\)*ab
分组括号中的模式匹配到的内容会被正则表达式引擎自动记录于内部的变量中,这些变量为:
\1:
\2:
\3:
...