【Linux】文本处理工具

最新推荐文章于 2024-08-13 17:02:33 发布

玄苦大师233

最新推荐文章于 2024-08-13 17:02:33 发布

阅读量317

点赞数

分类专栏： 4. Linux

本文链接：https://blog.csdn.net/chenguolinblog/article/details/90717936

版权

71 篇文章 0 订阅

订阅专栏

一. find 文件查找

查找txt和pdf文件：find . ( -name “.txt" -o -name ".pdf” ) -print
查找所有非txt文件：find . ! -name “*.txt” -print
指定深度搜索：find . -maxdepth 1 -type f
按类型搜索：find . -type d -print //只列出所有目录
-type f 文件
-type l 符号链接
按时间搜索
-atime 访问时间 (单位是天，分钟单位则是-amin，以下类似）
-mtime 修改时间（内容被修改）
-ctime 变化时间（元数据或权限变化）
最近7天被访问过的所有文件：find . -atime 7 -type f -print
按大小搜索：find . -type f -size +2k //寻找大于2k的文件
按权限查找：find . -type f -perm 644 -print //找具有可执行权限的所有文件
按用户查找：find . -type f -user weber -print // 找用户weber所拥有的文件
删除当前目录下所有swp文件：find . -type f -name “*.swp” -delete
执行动作（强大的exec）
find . -type f -user root -exec chown weber {} ; //将当前目录下的所有权变更为weber
注：{}是一个特殊的字符串，对于每一个匹配的文件，{}会被替换成相应的文件名；
将找到的文件全都copy到另一个目录：find . -type f -mtime +10 -name “*.txt” -exec cp {} OLD ;
-print的定界符
默认使用’\n’作为文件的定界符；
-print0 使用’\0’作为文件的定界符，这样就可以搜索包含空格的文件

grep match_patten file // 默认访问匹配行
常用参数

xargs 能够将输入数据转化为特定命令的命令行参数；这样，可以配合很多命令来组合使用。比如grep，比如find；

xargs参数说明

-d 定义定界符（默认为空格多行的定界符为 \n）
-n 指定输出为多行
-0 指定\0为输入定界符
-I {} 指定替换字符串，这个字符串在xargs扩展时会被替换掉,用于待执行的命令需要多个参数时
cat file.txt | xargs -I {} ./command.sh -p {} -1
例如统计程序行数：find source_dir/ -type f -name “*.cpp” -print0 |xargs -0 wc -l

通用用法
echo 12345 | tr ‘0-9’ ‘9876543210’ //加解密转换，替换对应字符
cat text| tr ‘\t’ ’ ’ //制表符转空格
tr删除字符
cat file | tr -d ‘0-9’ // 删除所有数字
-c 求补集
cat file | tr -c ‘0-9’ //获取文件中所有数字
cat file | tr -d -c ‘0-9 \n’ //删除非数字数据
tr压缩字符
tr -s 压缩文本中出现的重复字符；最常用于压缩多余的空格
cat file | tr -s ’ ’

首处替换：sed ’s/text/replace_text/‘ file
全局替换：sed ’s/test/replace_test/g’ file
默认替换后，输出替换后的内容，如果需要直接替换原文件,使用-i
sed -i ’s/test/replace_test/g’ file
移除空白行：sed ‘/^$/d’ file

awk脚本结构
awk ’ BEGIN{ statements } statements2 END{ statements } ’
工作方式
执行begin中语句块；
- 从文件或stdin中读入一行，然后执行statements2，重复这个过程，直到文件全部被读取完毕；
- 执行end语句块；
特殊变量： NR NF $0 $1 $2
- NR:表示记录数量，在执行过程中对应当前行号；
- NF:表示字段数量，在执行过程总对应当前行的字段数；
- $0:这个变量包含执行过程中当前行的文本内容；
- $1:第一个字段的文本内容；
- $2:第二个字段的文本内容；
打印每一行的第二和第三个字段：awk ‘{print $2, $3}’ file
统计文件的行数：awk ’ END {print NR}’ file
累加每一行的第一个字段：echo -e “1\n 2\n 3\n 4\n” | awk 'BEGIN{num = 0; print “begin”;} {sum += $1;} END {print “==”; print sum }’
在awk中使用循环
for(i=0;i<10;i++){print $i;}

# while 循环法
while read line;
do
echo $line;
done < file.txt

关注

专栏目录