shell中的数据处理：grep, sed, cut, awk

最新推荐文章于 2024-02-09 18:51:16 发布

我叫啥咧

最新推荐文章于 2024-02-09 18:51:16 发布

阅读量714

点赞数

分类专栏： Backend 文章标签： shell

本文链接：https://blog.csdn.net/u013176728/article/details/118937119

版权

Backend 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

本文详细介绍了Linux中常用的grep、cut、awk和sed命令，它们常用于日志和数据处理。grep用于行匹配，支持正则表达式，cut用于列提取，awk则更加强大，不仅支持列提取，还具备编程能力，能进行条件判断和数组操作。sed主要用于数据处理，包括替换、新增、删除等操作。理解这些工具的用法对于提升Linux系统管理和数据分析效率至关重要。

摘要由CSDN通过智能技术生成

简单介绍

grep、cut、awk、sed 常常应用在查找日志、数据、输出结果等等，并对我们想要的数据进行提取。
通常grep，sed命令是对行进行提取，cut跟awk是对列进行提取。
简单理解：grep是简化版的sed，cut是简化版的awk

grep命令

grep应用场景：通常对数据进行行的提取

语法：

grep [选项]...[内容]...[file]

-v #对内容进行取反提取，也就是去除没有这个内容的行
-n #对提取的内容显示行号
-w #精确匹配 🌟-o #只取
-i #忽略大小写默认的是大小写敏感的 ^ #匹配开头行首
-E #正则匹配这个正则匹配值得是“或” 扩展的正则表达式等于egrep 就是可以用｜了 grep -E “hello|hi” /bin/goods

cut命令

cut应用场景：通常对数据进行列的提取
语法：

cut  [选项]...[file] 这个没有指定输出的分隔符，awk可以用OFS

-d #指定分割符 delimit
-f #指定截取区域 field 默认制表符是分隔符
-c #以字符为单位进行分割 character

注意：不加-d选项，默认为制表符，不是空格
/bin/bash #代表可以登录的用户
/sbin/nologin #代表不可以登录的用户，就是系统中自带的用户

-d与-f：
eg:以’:'为分隔符，截取出/etc/passwd的第一列跟第三列

cut -d ':' -f 1,3 /etc/passwd

eg:以’:'为分隔符，截取出/etc/passwd的第一列到第三列

cut -d ':' -f 1-3 /etc/passwd

eg:以’:'为分隔符，截取出/etc/passwd的第二列到最后一列

cut -d ':' -f 2- /etc/passwd

问题：ll之后的列为什么我用ll|cut -f1取到的是一整个字段而不是一列？
利用cut是分不了ll的，因为ll的默认输出格式是table而不是tab进行分隔的，而如果为cut执行分隔符，那么也只能是一个字符的。但是awk不同awk默认的是n个空格作为分隔符的，并且awk也支持分隔符为多个字符。解决办法是先利用sed的替换把多个空格换成一个，或者是利用awk

ls -l | sed 's/[ ]\+/ /g' | cut -d ' ' -f 9
awk '{print $9}'

linux下输入制表符：按住ctrl再按v再按i；ll -Sh挺好用的，按顺序，从大到小。

awk和cut空格分隔符区别：

awk 以空格为分割域时,是以单个或多个连续的空格为分隔符的;支持ERE extend regular expression
cut则是以单个空格作为分隔符，原来cut只能单个字段u作为分隔符。

cut弊端：

如果文件里面的某些域是由若干个空格来间隔的，那么用cut就有点麻烦了，因为cut只擅长处理“以一个字符间隔”的文本内容

-c：
eg:截取/etc/passwd文件从第二个字符到第九个字符

cut -c 2-9 /etc/passwd

eg:比如领导想叫你截取linux上面所有可登陆普通用户

grep '/bin/bash' /etc/passwd | cut -d ':' -f 1 | grep -v root

awk命令

awk的简介：其实一门编程语言，支持条件判断，数组，循环等功能，与grep，sed被称为linux三剑客
之所以叫AWK是因为取其三位创始人 Alfred Aho，Peter Weinberger, 和 Brian Kernighan 的Family Name的首字符

awk的应用场景：通常对数据进行列的提取

语法：

awk '条件 {执行动作}'文件名
awk '条件1 {执行动作} 条件2 {执行动作} ...' 文件名
awk [选项] '条件1 {执行动作} 条件2 {执行动作} ...' 文件名

条件可以省略掉

特殊要点与举例说明:

printf    #格式化输出，不会自动换行。
（%ns：字符串型，n代表有多少个字符；
%ni：整型，n代表输出几个数字；
%.nf：浮点型，n代表的是小数点后有多少个小数
）

print     #打印出内容，默认会自动换行

\t      #制表符
\n      #换行符

eg：

printf '%s\t%s\t%s\t%s\t%s\t%s\n' 1 2 3 4 5 6

eg：除了BEGIN和END都是循环每一行的，每个语句可以单独打括号包住

df -h |grep /dev/vda1 | awk '{printf "/dev/vda1的使用率是："} {print $5 }'

printf在shell就可以用，print在awk才可以用

小数：

echo "scale=2; 0.13 + 0.1" | bc | awk '{printf "%.2f\n", $0}'

$1 #代表第一列
$2 #代表第二列
$0 #代表一整行

eg：

df -h | grep /dev/vda1 | awk '{print $5}'

-F #指定分割符

eg：cat /etc/passwd | awk -F":" '{print $1}'

BEGIN #在读取所有行内容前就开始执行，常常被用于修改内置变量的值
FS #BEGIN时定义分割符

eg：cat /etc/passwd | awk 'BEGIN {FS=":"} {print $1}'

END #结束的时候执行
NR #行号

eg：df -h | awk 'NR==2 {print $5}'
awk '(NR>=20 && NR<=30) {print $1}' /etc/passwd

#注意要多个条件要用括号

awk用作统计功能

awk ‘{engineer[$1]++}END{for(i in engineer)print i “\t” engineer[i]}’
#这个定义一个数组，一旦有相同的值那么就加1；
netstat -n | awk ‘/^tcp/{++S[$NF]} END{for( a in S) print a,S[a]}’
#这个是最后一个字段加1再放到数组中
#并且发现不但可以前面加上grep的管道过滤行也可以用/^tcp/直接过滤
#这两个意思相同都是搞统计

sed命令

sed的应用场景：主要对数据进行处理（选取，新增，替换，删除，搜索）
sed & awk & grep 专题

sed语法：sed [选项] [动作] 文件名

常见的选项与参数：

-n #把匹配到的行输出打印到屏幕 p #以行为单位进行查询，通常与-n一起使用 print df -h | sed -n ‘2p’

d #删除不会对源文件删除的 delete sed ‘2d’ df.txt

a #在行的下面插入新的内容 add sed ‘2a 1234567890’ df.txt

i #在行的上面插入新的内容 insert sed ‘2i 1234567890’ df.txt

c #替换 sed ‘2c 1234567890’ df.txt

s/要被取代的内容/新的字符串/g #指定内容进行替换s：substitute

sed 's/0%/100%/g' df.txt

-i #对源文件进行修改(高危操作，慎用，用之前需要备份源文件)

搜索：在文件中搜索内容

cat -n df.txt  | sed -n '/100%/p’

#这个p还是上面的print只不过不用数字了，而是// 正则表达式了

-e #表示可以执行多条动作

cat -n df.txt  | sed -n -e 's/100%/100%-----100%/g' -e '/100%-----100%/p'

其实这个sed就是有数字方式寻址和文本方式（regex）寻址

$ sed '/1/,/5/d' data2
$ sed '3d' data2
$ echo "This is a test" | sed '/test/s/test/TEST/‘ 
#s前面是过滤行，后面是进行替换，awk也有这种用法awk ‘/^tcp/{...}'
s///g全文替换 s///一行只替换首次出现

利用sed的替换命令实现grep -o的功能

分文件

shell split可以用于把大文件按照行数分割成小文件。

合文件

$ cat file1.txt file2.txt > file.txt
$ cat file1.txt >> file2.txt

我叫啥咧

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录