简单介绍
grep、cut、awk、sed 常常应用在查找日志、数据、输出结果等等,并对我们想要的数据进行提取。
通常grep,sed命令是对行进行提取,cut跟awk是对列进行提取。
简单理解:grep是简化版的sed,cut是简化版的awk
grep命令
grep应用场景:通常对数据进行 行的提取
语法:
grep [选项]...[内容]...[file]
-v #对内容进行取反提取,也就是去除没有这个内容的行
-n #对提取的内容显示行号
-w #精确匹配 🌟-o #只取
-i #忽略大小写 默认的是大小写敏感的 ^ #匹配开头行首
-E #正则匹配 这个正则匹配值得是“或” 扩展的正则表达式 等于egrep 就是可以用|了 grep -E “hello|hi” /bin/goods
cut命令
cut应用场景:通常对数据进行列的提取
语法:
cut [选项]...[file] 这个没有指定输出的分隔符,awk可以用OFS
-d #指定分割符 delimit
-f #指定截取区域 field 默认制表符是分隔符
-c #以字符为单位进行分割 character
注意:不加-d选项,默认为制表符,不是空格
/bin/bash #代表可以登录的用户
/sbin/nologin #代表不可以登录的用户,就是系统中自带的用户
-d与-f:
eg:以’:'为分隔符,截取出/etc/passwd的第一列跟第三列
cut -d ':' -f 1,3 /etc/passwd
eg:以’:'为分隔符,截取出/etc/passwd的第一列到第三列
cut -d ':' -f 1-3 /etc/passwd
eg:以’:'为分隔符,截取出/etc/passwd的第二列到最后一列
cut -d ':' -f 2- /etc/passwd
问题:ll之后的列为什么我用ll|cut -f1取到的是一整个字段而不是一列?
利用cut是分不了ll的,因为ll的默认输出格式是table而不是tab进行分隔的,而如果为cut执行分隔符,那么也只能是一个字符的。但是awk不同awk默认的是n个空格作为分隔符的,并且awk也支持分隔符为多个字符。解决办法是先利用sed的替换把多个空格换成一个,或者是利用awk
ls -l | sed 's/[ ]\+/ /g' | cut -d ' ' -f 9
awk '{print $9}'
linux下输入制表符:按住ctrl再按v再按i;ll -Sh挺好用的,按顺序,从大到小。
awk和cut空格分隔符区别:
- awk 以空格为分割域时,是以单个或多个连续的空格为分隔符的;支持ERE extend regular expression
- cut则是以单个空格作为分隔符,原来cut只能单个字段u作为分隔符。
cut弊端:
- 如果文件里面的某些域是由若干个空格来间隔的,那么用cut就有点麻烦了,因为cut只擅长处理“以一个字符间隔”的文本内容
-c:
eg:截取/etc/passwd文件从第二个字符到第九个字符
cut -c 2-9 /etc/passwd
eg:比如领导想叫你截取linux上面所有可登陆普通用户
grep '/bin/bash' /etc/passwd | cut -d ':' -f 1 | grep -v root
awk命令
awk的简介:其实一门编程语言,支持条件判断,数组,循环等功能,与grep,sed被称为linux三剑客
之所以叫AWK是因为取其三位创始人 Alfred Aho,Peter Weinberger, 和 Brian Kernighan 的Family Name的首字符
awk的应用场景:通常对数据进行列的提取
语法:
awk '条件 {执行动作}'文件名
awk '条件1 {执行动作} 条件2 {执行动作} ...' 文件名
awk [选项] '条件1 {执行动作} 条件2 {执行动作} ...' 文件名
条件可以省略掉
特殊要点与举例说明:
printf #格式化输出,不会自动换行。
(%ns:字符串型,n代表有多少个字符;
%ni:整型,n代表输出几个数字;
%.nf:浮点型,n代表的是小数点后有多少个小数
)
print #打印出内容,默认会自动换行
\t #制表符
\n #换行符
eg:
printf '%s\t%s\t%s\t%s\t%s\t%s\n' 1 2 3 4 5 6
eg:除了BEGIN和END都是循环每一行的,每个语句可以单独打括号包住
df -h |grep /dev/vda1 | awk '{printf "/dev/vda1的使用率是:"} {print $5 }'
printf在shell就可以用,print在awk才可以用
小数:
echo "scale=2; 0.13 + 0.1" | bc | awk '{printf "%.2f\n", $0}'
$1 #代表第一列
$2 #代表第二列
$0 #代表一整行
eg:
df -h | grep /dev/vda1 | awk '{print $5}'
-F #指定分割符
eg:cat /etc/passwd | awk -F":" '{print $1}'
BEGIN #在读取所有行内容前就开始执行,常常被用于修改内置变量的值
FS #BEGIN时定义分割符
eg:cat /etc/passwd | awk 'BEGIN {FS=":"} {print $1}'
END #结束的时候 执行
NR #行号
eg:df -h | awk 'NR==2 {print $5}'
awk '(NR>=20 && NR<=30) {print $1}' /etc/passwd
#注意要多个条件要用括号
awk用作统计功能
awk ‘{engineer[$1]++}END{for(i in engineer)print i “\t” engineer[i]}’
#这个定义一个数组,一旦有相同的值那么就加1;
netstat -n | awk ‘/^tcp/{++S[$NF]} END{for( a in S) print a,S[a]}’
#这个是最后一个字段加1再放到数组中
#并且发现不但可以前面加上grep的管道过滤行也可以用/^tcp/直接过滤
#这两个意思相同都是搞统计
sed命令
sed的应用场景:主要对数据进行处理(选取,新增,替换,删除,搜索)
sed & awk & grep 专题
sed语法:sed [选项] [动作] 文件名
常见的选项与参数:
-n #把匹配到的行输出打印到屏幕 p #以行为单位进行查询,通常与-n一起使用 print df -h | sed -n ‘2p’
d #删除 不会对源文件删除的 delete sed ‘2d’ df.txt
a #在行的下面插入新的内容 add sed ‘2a 1234567890’ df.txt
i #在行的上面插入新的内容 insert sed ‘2i 1234567890’ df.txt
c #替换 sed ‘2c 1234567890’ df.txt
s/要被取代的内容/新的字符串/g #指定内容进行替换s:substitute
sed 's/0%/100%/g' df.txt
-i #对源文件进行修改(高危操作,慎用,用之前需要备份源文件)
搜索:在文件中搜索内容
cat -n df.txt | sed -n '/100%/p’
#这个p还是上面的print只不过不用数字了,而是// 正则表达式了
-e #表示可以执行多条动作
cat -n df.txt | sed -n -e 's/100%/100%-----100%/g' -e '/100%-----100%/p'
其实这个sed就是有数字方式寻址和文本方式(regex)寻址
$ sed '/1/,/5/d' data2
$ sed '3d' data2
$ echo "This is a test" | sed '/test/s/test/TEST/‘
#s前面是过滤行,后面是进行替换,awk也有这种用法awk ‘/^tcp/{...}'
s///g全文替换 s///一行只替换首次出现
利用sed的替换命令实现grep -o的功能
分文件
shell split可以用于把大文件按照行数分割成小文件。
合文件
$ cat file1.txt file2.txt > file.txt
$ cat file1.txt >> file2.txt