实现对nginx的访问ip进行统计,出现出重不成功;
shell: cat access.log | awk ‘{print $1}’ | uniq -c
原因:
因为uniq去重只对相邻的数据进行迭代处理,当遇到相邻的数据不重复时,就会该处的数据加一,进行新的迭代处理。
算法过程如下
key = 1
uniq(file, key):
if line[key] == line[key+1]:
删除line[key+1],移动后续行
uniq(file,1)
else :
uniq(file, key+1)
所以对文件数据进行去重处理时,先对文件的数据进行排序,然后再进行去重处理:
#输出访问量排名前10的ip地址和访问量
cat test.txt | sort | uniq -c | sork -rn | head -l