面试宝典里看到一道题，希望老师们帮忙解答一下

最新推荐文章于 2021-02-27 03:51:43 发布

冥想者-定

最新推荐文章于 2021-02-27 03:51:43 发布

阅读量922

点赞数

分类专栏：大数据面试题

大数据面试题专栏收录该内容

28 篇文章 1 订阅

订阅专栏

某个目录下有两个文件a.txt和b.txt.文件格式为（ip username）,例如：

a.txt
210.121.123.12 zhangsan
34.23.56.78 lisi
11.56.56.72 wanger

b.txt
58.23.53.132 liuqi
34.23.56.78 liba

a.txt,b.txt 中至少 100 万行，用 linux命令行实现下列要求（题目要求linux命令行方式。。。）：
1）a.txt,b.txt 中各自的 ip 个数，ip 的总个数。
2）a.txt 中存在的 ip 而 b.txt 中不存在的 ip。
3）每个 username 出现的总个数，每个 username 对应的 ip 个数。

这个比较侧重于linux命令的一些小技巧了
后面会把这些命令的使用方式放到课程里面进行讲解。

1：
单个文件中ip个数不去重
cut -d ' ' -f 1 a.txt | wc -l

单个文件中ip去重后的总个数
cut -d ' ' -f 1 a.txt |sort | uniq |wc -l

ip总个数不去重
cut -d ' ' -f 1 a.txt b.txt | wc -l

ip去重后的总个数
cut -d ' ' -f 1 a.txt b.txt |sort | uniq |wc -l

2：
a中存在而b中不存在的ip
cut -d ' ' -f 1 a.txt b.txt |sort | uniq -u

3：
每个 username 出现的总个数
cut -d ' ' -f 2 a.txt b.txt | sort | uniq -c
或者
awk '{arr[$2]++;}END{for(i in arr){print i , arr }}' a.txt b.txt

每个 username 对应的 ip 个数
cut -d ' ' -f 1-2 a.txt b.txt | sort -k 2 | uniq -c | awk '{arr[$3]++;}END{for(i in arr){print i , arr }}'

冥想者-定

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
面试宝典里看到一道题，希望老师们帮忙解答一下

某个目录下有两个文件a.txt和b.txt.文件格式为（ip username）,例如：a.txt210.121.123.12 zhangsan34.23.56.78 lisi11.56.56.72 wangerb.txt58.23.53.132 liuqi34.23.56.78 libaa.txt,b.txt 中至少 100 万行，用 linux命令行
复制链接

扫一扫