假如有如下保存url的文件all_urls:
http://www.baidu.com http://www.sina.com http://www.baidu.com http://www.sohu.com http://www.baidu.com http://www.sina.com
想统计不同url出现的次数,并按照从大到小的顺序排列,只需一行简单的shell脚本就可以了:
cat all_urls|sort|uniq -c |sort -k1 -nr|awk '{print $2}'
结果如下:
http://www.baidu.com http://www.sina.com http://www.sohu.com
千万量级以内的统计,都可以随手计算,计算时间在可以接受的范围内,无需动用mapreduce。