linux中常用文本处理命令

最新推荐文章于 2023-08-09 09:47:15 发布

MasonYyp

最新推荐文章于 2023-08-09 09:47:15 发布

阅读量333

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/make_progress/article/details/81987600

版权

Linux中文本处理命令，本文以“henu.txt”文件为例

1、wc命令：对文件行、字数（单词）、字符数做简单统计

参数（-l：仅列出行； -w：仅列出多少字(英文单字)； -m：多少字符；）

1）查看文件全部参数

more henu.txt

wc henu.txt

其中16 16 417 分别代表行数、一行中的字符数、总的字符数

2）统计文件行数

wc -l henu.txt

“wc”命令主要统计英文的字符，建议使用此命令查看文件中的行数

2、文件内容含有条件的筛选awk

# FS=","：以","分割行， $1:显示第一列，NR：当前所在的行，NF当前行分割的字段数

awk 'BEGIN{FS=","} {print $1 "\t" $2 "\t" NR "\t" NF}' henu.txt

# 筛选第一列->排序->去重并计算重复次数->按照重复次数排序->重定向到新文件中

awk 'BEGIN{FS=","} {print $1}' henu.txt | sort | uniq -c | sort -rn -k1 > new_henu.txt

3、替换字符和删除行sed

1）替换：sed 's/旧字符/新字符/g' ，特殊字符要使用转义

其中正则表达式中，“.”表示任意字符，“*”重复多次

# 表示删除file_name文件中的括号里面的内容和括号，并用空代替

cat file_name | sed 's/(.*)//g' | sed 's/\[.*\]//g'

# 将“河南大学”替换为“河大”

cat henu.txt | sed 's/'河南大学'/'河大'/g' > new_henu.txt

2）删除行

#删除第一行和第二行

cat henu.txt | sed '1,2d' >new_henu.txt

4、查找字符grep

#查找“河南大学”

cat henu.txt | grep '河南大学' >new_henu.txt

#正则查找，查找以“大”开头，以“语”结束的字符

cat henu.txt | grep '大.*语' >new_henu.txt

5、其他

1）cut切割字符

# 以“，”切割文件并取出第1列

cat henu.txt |cut -d ',' -f 1| sort | uniq -c | sort -rn -k1 > new_henu.txt

2）sort排序的时候注意默认是按照字典的方式排序，如果按照数字时则必须加上-n

uniq去除重复，只能去除相邻的重复，所以要先排序，后去除重复

3）查看制表符的命令\t

cat -T file_name

sed -n l file_name（英文字母L的小写，不是管道|）

tr -d 'delete_char'

文件内容如下：

2,河南大学,软件工程

3,河南大学,美术

1,河南大学,计算机

4,河南大学,体育

5,河南大学,物理

13,河南科技大学,物理

6,河南大学,化学

1,河南大学,计算机

7,河南大学,计算机

8,河南科技大学,计算机

1,河南大学,计算机

9,河南理工学院,

10,河南工学院,

11,河南大学,英语

12,河南大学,语文

13,河南科技大学,物理

14,河南科技大学,化学

15,河南大学,计算机

13,河南科技大学,物理

13,河南科技大学,物理

16,河南大学,软件工程

参见《鸟哥的私房菜》

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
linux中常用文本处理命令

Linux中文本处理命令，本文以“henu.txt”文件为例 1、wc命令：对文件行、字数（单词）、字符数做简单统计参数（-l：仅列出行； -w：仅列出多少字(英文单字)； -m：多少字符；） 1）查看文件全部参数 more henu.txt wc henu.txt 其中16 16 41...
复制链接

扫一扫

MasonYyp CSDN认证博客专家 CSDN认证企业博客

码龄7年

238: 原创

2万+: 周排名

7915: 总排名

53万+: 访问

: 等级

4498: 积分

198: 粉丝

371: 获赞

94: 评论

1315: 收藏

私信

关注

热门文章

分类专栏

python 15篇
JavaEE 26篇
微服务 28篇
go 4篇
Hadoop 6篇
Vue 5篇
前端 28篇
Android 19篇
Linux服务器 43篇
机器学习 31篇

最新评论

使用docker安装seafile
changshuai888888: 你不使用https吗？
使用pyannote-audio实现声纹分割聚类
Cαnαrd: 这个项目使用GPU只需要将语音分离模型发送到GPU即可。示例： import torch # 放在定义模型后，使用模型前 speaker_diarization.to(torch.device("cuda"))
使用pyannote-audio实现声纹分割聚类
Cαnαrd: 5min视频，CPU需要193s，GPU只需要22s
使用pyannote-audio实现声纹分割聚类
Cαnαrd: 改成GPU跑会快不少，默认是CPU
使用docker安装seafile
怣887: 我照着你的做报了几个错，第一是镜像站问题，我换了，然后都启动成功了，但是我访问不了web页面，然后我看日志发现是db连接不了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。