shell中的数据处理:grep, sed, cut, awk

简单介绍

grep、cut、awk、sed 常常应用在查找日志、数据、输出结果等等,并对我们想要的数据进行提取。
通常grep,sed命令是对行进行提取,cut跟awk是对列进行提取。
简单理解:grep是简化版的sed,cut是简化版的awk

grep命令

grep应用场景:通常对数据进行 行的提取

语法:

grep [选项]...[内容]...[file]

-v #对内容进行取反提取,也就是去除没有这个内容的行
-n #对提取的内容显示行号
-w #精确匹配 🌟-o #只取
-i #忽略大小写 默认的是大小写敏感的 ^ #匹配开头行首
-E #正则匹配 这个正则匹配值得是“或” 扩展的正则表达式 等于egrep 就是可以用|了 grep -E “hello|hi” /bin/goods

cut命令

cut应用场景:通常对数据进行列的提取
语法:

cut  [选项]...[file] 这个没有指定输出的分隔符,awk可以用OFS

-d #指定分割符 delimit
-f #指定截取区域 field 默认制表符是分隔符
-c #以字符为单位进行分割 character

注意:不加-d选项,默认为制表符,不是空格
/bin/bash #代表可以登录的用户
/sbin/nologin #代表不可以登录的用户,就是系统中自带的用户

-d与-f
eg:以’:'为分隔符,截取出/etc/passwd的第一列跟第三列

cut -d ':' -f 1,3 /etc/passwd

eg:以’:'为分隔符,截取出/etc/passwd的第一列到第三列

cut -d ':' -f 1-3 /etc/passwd

eg:以’:'为分隔符,截取出/etc/passwd的第二列到最后一列

cut -d ':' -f 2- /etc/passwd

问题:ll之后的列为什么我用ll|cut -f1取到的是一整个字段而不是一列?
利用cut是分不了ll的,因为ll的默认输出格式是table而不是tab进行分隔的,而如果为cut执行分隔符,那么也只能是一个字符的。但是awk不同awk默认的是n个空格作为分隔符的,并且awk也支持分隔符为多个字符。解决办法是先利用sed的替换把多个空格换成一个,或者是利用awk

ls -l | sed 's/[ ]\+/ /g' | cut -d ' ' -f 9
awk '{print $9}'

linux下输入制表符:按住ctrl再按v再按i;ll -Sh挺好用的,按顺序,从大到小。

awk和cut空格分隔符区别:

  • awk 以空格为分割域时,是以单个或多个连续的空格为分隔符的;支持ERE extend regular expression
  • cut则是以单个空格作为分隔符,原来cut只能单个字段u作为分隔符。

cut弊端:

  • 如果文件里面的某些域是由若干个空格来间隔的,那么用cut就有点麻烦了,因为cut只擅长处理“以一个字符间隔”的文本内容

-c:
eg:截取/etc/passwd文件从第二个字符到第九个字符

cut -c 2-9 /etc/passwd

eg:比如领导想叫你截取linux上面所有可登陆普通用户

grep '/bin/bash' /etc/passwd | cut -d ':' -f 1 | grep -v root
awk命令

awk的简介:其实一门编程语言,支持条件判断,数组,循环等功能,与grep,sed被称为linux三剑客
之所以叫AWK是因为取其三位创始人 Alfred Aho,Peter Weinberger, 和 Brian Kernighan 的Family Name的首字符

awk的应用场景:通常对数据进行列的提取

语法:

awk '条件 {执行动作}'文件名
awk '条件1 {执行动作} 条件2 {执行动作} ...' 文件名
awk [选项] '条件1 {执行动作} 条件2 {执行动作} ...' 文件名

条件可以省略掉

特殊要点与举例说明:

printf    #格式化输出,不会自动换行。
(%ns:字符串型,n代表有多少个字符;
%ni:整型,n代表输出几个数字;
%.nf:浮点型,n代表的是小数点后有多少个小数
)

print     #打印出内容,默认会自动换行

\t      #制表符
\n      #换行符

eg:

printf '%s\t%s\t%s\t%s\t%s\t%s\n' 1 2 3 4 5 6

eg:除了BEGIN和END都是循环每一行的,每个语句可以单独打括号包住

df -h |grep /dev/vda1 | awk '{printf "/dev/vda1的使用率是:"} {print $5 }'

printf在shell就可以用,print在awk才可以用

小数:

echo "scale=2; 0.13 + 0.1" | bc | awk '{printf "%.2f\n", $0}'

$1 #代表第一列
$2 #代表第二列
$0 #代表一整行

eg:

df -h | grep /dev/vda1 | awk '{print $5}'

-F #指定分割符

eg:cat /etc/passwd | awk -F":" '{print $1}'

BEGIN #在读取所有行内容前就开始执行,常常被用于修改内置变量的值
FS #BEGIN时定义分割符

eg:cat /etc/passwd | awk 'BEGIN {FS=":"} {print $1}'

END #结束的时候 执行
NR #行号

eg:df -h | awk 'NR==2 {print $5}'
awk '(NR>=20 && NR<=30) {print $1}' /etc/passwd

#注意要多个条件要用括号

awk用作统计功能

awk{engineer[$1]++}END{for(i in engineer)print i “\t” engineer[i]}#这个定义一个数组,一旦有相同的值那么就加1;
netstat -n | awk ‘/^tcp/{++S[$NF]} END{for( a in S) print a,S[a]}#这个是最后一个字段加1再放到数组中
#并且发现不但可以前面加上grep的管道过滤行也可以用/^tcp/直接过滤
#这两个意思相同都是搞统计
sed命令

sed的应用场景:主要对数据进行处理(选取,新增,替换,删除,搜索)
sed & awk & grep 专题

sed语法:sed [选项] [动作] 文件名

常见的选项与参数:

-n #把匹配到的行输出打印到屏幕 p #以行为单位进行查询,通常与-n一起使用 print df -h | sed -n ‘2p’

d #删除 不会对源文件删除的 delete sed ‘2d’ df.txt

a #在行的下面插入新的内容 add sed ‘2a 1234567890’ df.txt

i #在行的上面插入新的内容 insert sed ‘2i 1234567890’ df.txt

c #替换 sed ‘2c 1234567890’ df.txt

s/要被取代的内容/新的字符串/g #指定内容进行替换s:substitute

sed 's/0%/100%/g' df.txt

-i #对源文件进行修改(高危操作,慎用,用之前需要备份源文件)

搜索:在文件中搜索内容

cat -n df.txt  | sed -n '/100%/p’

#这个p还是上面的print只不过不用数字了,而是// 正则表达式了

-e #表示可以执行多条动作

cat -n df.txt  | sed -n -e 's/100%/100%-----100%/g' -e '/100%-----100%/p'

其实这个sed就是有数字方式寻址和文本方式(regex)寻址

$ sed '/1/,/5/d' data2
$ sed '3d' data2
$ echo "This is a test" | sed '/test/s/test/TEST/‘ 
#s前面是过滤行,后面是进行替换,awk也有这种用法awk ‘/^tcp/{...}'
s///g全文替换 s///一行只替换首次出现

利用sed的替换命令实现grep -o的功能

分文件

shell split可以用于把大文件按照行数分割成小文件。

合文件
$ cat file1.txt file2.txt > file.txt
$ cat file1.txt >> file2.txt
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值