1. IpCount
如题:
某个目录下有两个文件a.txt和b.txt,文件格式为(ip username),例如:
a.txt
127.0.0.1 zhangsan
127.0.0.1 wangxiaoer
127.0.0.2 lisi
127.0.0.3 wangwu
b.txt
127.0.0.4 lixiaolu
127.0.0.1 lisi
每个文件至少有100万行,请使用linux命令行完成如下工作:
1)两个文件各自的ip数,以及总ip数
2)出现在b.txt而没有出现在a.txt的ip
3)每个username出现的次数,以及每个username对应的ip数
1.1 计算两个文件各自的ip数,以及总ip数
思路分析:
- 分别从两个文件中截取第一个字段,然后通过uniq命令去除重行,分别输入到ipA.txt和ipB.txt文件中
cat a.txt | awk ‘{
print $1}’ | sort | uniq > ipA.txt
cat b.txt | awk ‘{
print $1}’ | sort | uniq > ipB.txt
- 然后只要计算ipA和ipB文件的行数就可以了,这里使用wc命令,参数为 -l,表示出现的line数
wc -l ipA.txt
wc -l ipB.txt
- 这时我们只是分别计算出了a.txt 和 b.txt 的ip数,总的ip数需要再去重一次
cat ipA.txt ipB.txt > ip.txt
sort -u ip.txt | wc -l
所以,根据这些片段,我们可以把它组装成以个脚本,实现自动化^&^
当然,我们直接拿上面的语句拼装一下就可以了。
#! /bin/bash
cat a.txt | awk '{print $1}' | sort | uniq > ipA.txt
cat b.txt | awk '{print $1}' | sort | uniq > ipB.txt
numA=`wc -l ipA.txt | aw