1.文本处理三工具:grep、sed, awk
工具一:grep
grep 是一个很常见的命令, 它最主要的任务是进行字符串的对比,然后将符合条件的字符串打印出来,
grep进行数据查找时,是以整行为单位进行数据选取的,比如一个文本中有10行数据,其中两行包含你要查找的数据就把两行打印出来,其余的就丢弃了
选项:
grep [-A] [-B] [--color=auto]
-n :显示行号
-A :after的意思,除了符合匹配的行除外,后续的n行也显示出来,
-B :before
-v :反向选择,匹配到的不显示,没有匹配到的显示
-i:忽略大小写
^:行首匹配
$:行尾匹配
^$:空白行
.:代表一定有一个任意字符的意思
[list]:list中待查找的字符
[^list]:
[n1-n2]:在一定范围内
例子:
dmesg | grep "eth" //dmesg打印出内核参数,通过grep来选取网卡的相关信息(eth)
grep ^word 文件名 //查找以word开头的行
grep word$ 文件名 //查找文件中以word结尾的行
显示颜色:
grep可以使用--color=auto来将关键字进行颜色显示,但是这种方法比较麻烦,可以在~/.bashrc内加上这行
alias grep = 'grep --color = auto',source ~/.bashrc 立即生效
工具二:sed
sed工具,sed本身是一个管道工具,可以进行数据的替换,删除,新增和选取等特定功能,
sed [选项] 动作
-n:安静模式输出
-e:直接在命令行模式进行sed的动作编辑
-f:直接将sed的动作写入一个文件内,-f filename 则可以执行filename内的sed动作
-i:直接修改文件内容,而不是由屏幕输出
动作参数:
a :新增,a的后边可以加上字符串,而这些字符串会出现在新的一行(目前的下一行)
c :替换,c的后边加上字符串,这些字符串会替换n1,到n2之间的行
d :删除,
i :插入
p :打印
s :替换
实例:
1.将text.txt文件内容2到5行删除
nl text.txt | sed '2,5 d' //首先显示行号
2.在第二行后加上 drink tea
nl text.txt | sed '2a drink tea'
当需要一次添加多行时,要用反斜杠\来进行添加
3.将2~5行的内容替换成为new content
nl text.txt | sed '2,5c new content '
4.将11-20行内容显示出来
nl text.txt | sed -n '11,20p' //使用-n是使用安静模式输出,否则会出现11-20行重复输出
5.替换将nobody转化为anybody
nl text.txt | grep nobody | sed 's/nobode/anybody/g'
6.删除批注之后的内容
nl text.txt | sed s/#.*$//g
7.直接修改文件内容
-i
工具三L:awk
awk也是一个比较好用的数据处理工具,相比于sed常做整行的处理。awk倾向于将一整行 划分成数个字段来处理,
awk处理过程: 依次对每一行进行处理,然后输出
awk比较倾向于处理小型的数据处理
awk的内置变量
NF 每一行拥有的字段总数
NR 目前awk处理的是哪一行数据
FS 目前的分隔符,默认为空格
\t 制表符
\n 换行符
例子:
1.输出/etc/passwd文件中前五行,的第一列和第三列
cat /etc/passwd | awk '{FS = ":"} {print $1,$3}' //设置分隔符为:
2.输出/etc/passwd文件中前五行,的第一列和第三列并输出正在处理的行数以及每一行拥有的字段数
cat /etc/passwd | awk '{FS = ":"} {print $1,"行数:" NR "每一行拥有的字段总数" NF $3}'
pay文件内容如下对文本pay进行处理
Name 1st 2nd 3th
shan 10000 2673 32390
hui 88888 8492 13299
3.选取第一个字段为shan的一行
awk '$1=="shan"' pay