目录
cut:
功能描述:
cut的工作就是剪,具体的说就是在文件中剪数据用的,cut指令用户显示行中的指定部分,删除文件中的指定字段
语法:cut【选项】【文件】
选项 功能
-b :<起始字节位置-结束字节位置> 仅显示行中指定字节范围的内容
-f:<起始列位置-结束列位置> 显式指定的字段内容
-d:<分隔符>指定字段的分隔符,默认的字段分隔符为TAB
-c:<起始字符位置-结束字符位置>仅显示行中指定范围的字符。
sort:
功能描述:他将文件进行排序,并将排序结果标准输出
语法:sort【选项】【参数】
选项: 说明
-n:依照数值的大小排序
-r:以相反的顺序排序
-t:设置排序时的分割字符
-k:指定需要排序的列
参数:是指待排序的文件
head -n 第几列
正则表达式:
又称规则表达式。(regex、regexp、RE)
单字符匹配:
\d:匹配一个数字字符。等价【0-9】
\D:匹配一个非数字字符。等价于【^0-9】
\w:匹配包括下划线的任意单词字符。类似但不等价于【A-Z、a-z、0-9】
\W:匹配任何非单词字符等价于【^A-Z、a-z、0-9】
\s:匹配空白字符包括空格、制表符、换页符、等价于【\f\n\r\t\v】
\S:匹配任何可见字符,等价于【^\f\n\r\t\v】
.:匹配除 \n 和 \r 之外的任何单个字符
【a-z】:字符范围匹配a-z之间任意字符
【^a-z】:匹配除了a-z 之间的其他字符
\n:匹配换行符
多字符匹配:
+:匹配前面子表达式一次或多次
*:匹配前面子表达式任意次
?:匹配前面的子表达式零次或者一次
{n}:n是一个非负整数。匹配确定的n次
{n,m}:m,n 均为非负整数,其中n<=m。最少匹配n次,最多匹配m次
其他:
^:匹配输入子行首
$:匹配输入行尾
|:将两个匹配条件进行逻辑或 (or) 运算
x | y :匹配x或y
爬虫,正则
sed:
功能描述:
sed的是一种单行文本流式编辑器,它一次处理一行内容。处理时,把当前处理的行储存到临时缓冲区,成为模式空间,接着用sed 命令处理缓冲区的内容,处理完后,把缓冲区的内容送往屏幕,接着处理下一行,这样不断重复,指导文件结束,文件内容并没有改变,除非你使用重定向储存输出。
语法:sed [选项]命令 文件名
选项:
-e:直接在指令列模式上进行sed 的动作编辑(一次执行多个操作时)
-i:直接编辑文件
-n:取消默认输出。sed默认会输出所有文本内容
-p:打印,一般配合-n 使用
a:新增,在指定的行之前插入内容
d:删除
s:查找并替换
awk:
功能描述:是一门编程语言也是一个强大的文本分析工具,逐行扫描文件,默认从第一行到最后一行,寻找匹配特定模式的行并在这些行上进行你想要的操作。
语法:
awk 选项 ‘pattern{action1} pattern{action2}…… 文件名’
pattern:表示awk 在数据中查找的内容,就是匹配模式
action:在找到匹配内容时所执行的一系列命令
选项:
-F:指定输入文件的分隔符
-v:赋值一个用户定义的变量
awk 的内置变量:
变量
FILENAME 文件名
NR 已读的记录数
NF 浏览记录域的个数(切割后,列的个数)