以下是一道难道系数中高并且高频出现的linux面试题,题目具体要求如下:
linux面试题:
某文件有多列数据,空格隔开,统计第n列单词,打印出现频率最高的5个单词。
解答这道面试题需要用到3个linux命令,分别是awk和sort、uniq。
01 命令1:awk
接下来我们一起复习awk命令的基本语法
awk命令:awk是对文本进行格式化处理的工具,适合做比较复杂的格式话处理
awk命令格式:
awk [options] 'Pattern{Action}' file1,file2,......
命令格式说明:
- options需要替换成相应的参数;
- Pattern[Action] 模式以及相应的动作
- file1,file2,…待格式化处理的文件
命令的必填项如下:
awk ‘{Action}’ file1,file2,…
也就是说,命令中一定要含有Action和file
awk可以将1个或多个文件按照一定的模式匹配出目标结果信息,然后再做动作Action,做什么动作呢?比较常见的就是打印。
1、Action
最常用的是print,默认以空白字符分隔
$0代表整行;$1代表第1段; 2 代表第 2 段;依次类推; 2代表第2段;依次类推; 2代表第2段;依次类推;NF代表最后一个字段,多个段落间用逗号分隔符分隔。
例如:
awk '{print $1,$2}' access.log
打印access.log日志的第1段、第2段
例如:
awk '{print "matongxue",$1,$3}' access.log
打印access.log日志的第1段、第3段,并且前缀拼接字符串 matongxue
2、options参数
默认以空格作为分隔符展示结果信息,可以通过-F选项来指定分隔符
例如:
awk -F ',' '{print $1}' access.log
打印access.log日志的第1段,分隔符采用非默认分隔符,逗号
3、awk变量
FS 表示输入字段分隔符,默认是空格字符,一般需要加-v
OFS 表示输出字段分隔符,默认是空格字符,一般需要加-v
NF 表示分隔后的字段数量
NR 表示当前行的行号
awk变量如何用呢?用在awk语法的模式Pattern这部分。
Pattern模式
模式就是条件,也就是说,符合过滤条件的行,awk才会进行格式化处理。
Pattern模式可选性
如果要做高级过滤处理,需要使用Pattern模式
例如:
过滤出access.log第5段所在行,并打印过滤后内容的第1、2段
awk -F ',' 'NF == 5 {print $1,$2} ' access.log
例如:
过滤出access.log第3到第5行,并打印过滤后全部内容
也就是说,打印access.log的第3-5行数据
awk -F ',' 'NR >=3 && NR<=5 {print $0} ' access.log
02 命令2:sort
接下来我们一起复习sort命令的基本语法。
sort是linux的排序命令
sort将文件的每一行作为一个单位,互相比较,比较原则是从首个字符向后,依次按ASCII码值进行比较,最后将它们按升序输出
-r reverse 反向排序
-n number 按照数字进行排序,默认数字会被当做字符串进行比较
例如
将access.log文件内容反向排序输出显示
cat access.log | sort -r
例如:
将access_2.log文件内容按照数字反向排序输出显示
cataccess_2.log | sort -rn
03 命令3:uniq
接下来我们一起复习uniq命令的基本语法。
uniq是linux的去重命令
uniq用于去除有序文件中的重复(相邻、连续的)行并将结果进行标准输出。
uniq经常和sort结合,为了使uniq起作用,所有的重复行必须是相邻的。
-c 显示行出现的次数
例如:
cat city.log uniq
将 city.log 文件做去重处理
例如
cat city.log | uniq -c
将 city.log 文件做去重处理 并显示行重复出现次数
例如:
对重复字符串不连续文件student.log进行去重
cat student.log |sort | uniq -c
说明:不连续内容先排序然后再去重
04 面试题解析
linux面试题:
某文件有多列数据,空格隔开,统计第n列单词,打印出现频率最高的5个单词。
假设,某文件名为a.log
假设,第n列为第3列
解题思路如下:
1,格式化输出文件第3列
awk '{print $3}' a.log
2,对格式化后文件进行排序,然后去重
awk '{print $3}' a.log | sort | uniq-c
3,对排序去重后文件进行倒序排序,并统计出现频率最高的5个单词
awk '{print $3}' a.log | sort | uniq-c |sort -rn | head -5
其他类似的词频统计题 就可以套用咱们这个linux命令。
现在我邀请你进入我们的软件测试学习交流群:【
746506216
】,备注“入群”, 大家可以一起探讨交流软件测试,共同学习软件测试技术、面试等软件测试方方面面,还会有免费直播课,收获更多测试技巧,我们一起进阶Python自动化测试/测试开发,走向高薪之路。
资源分享
最后感谢每一个认真阅读我文章的人,看着粉丝一路的上涨和关注,礼尚往来总是要有的,虽然不是什么很值钱的东西,如果你用得到的话可以直接拿走…
这些资料,对于想从事【软件测试】的朋友来说应该是最全面最完整的备战仓库,这个仓库也陪伴我走过了最艰难的路程,希望也能帮助到你!凡事要趁早,特别是技术行业,一定要提升技术功底。希望对大家有所帮助…….