之前用Java作日志分析,算PV的时候,要把URL提取出来,然后用hash来累计。
后来日志多了,单机扛不住,就改上hadoop,算法基本不变。
但今天发现,其实用awk命令就可以简单做到。而且性能相当快。再加上sort,连排序都一起做了。超级爽。
之前用Java作日志分析,算PV的时候,要把URL提取出来,然后用hash来累计。
后来日志多了,单机扛不住,就改上hadoop,算法基本不变。
但今天发现,其实用awk命令就可以简单做到。而且性能相当快。再加上sort,连排序都一起做了。超级爽。