1.做服务器开发的经常会遇到要分析大量的日志,统计大量数据;这里介绍几种统计日志数据的方法和思路
之前有遇到过要统计几天内的url出现次数的事情,一天有24个gz压缩文件,每个文件大概6G左右,URL的不重复率也很高
使用方法:
1.用shell 解压然后在统计,shell脚本写起来麻烦,统计那一块很多人也不是很熟悉(不也不咋熟悉),sort又很慢,用下面的方法进行md5转换就更慢了
while read line
do
# 将字符串使用md5sum转换然后截取有用的部分
m5=$(echo $line |md5sum | awk '{print $1}')
echo $m5 >> ./1/$filename"_txt"
done < ./$filename"_txt"
2.使用lua(这个因为是本人最熟悉的脚本,所以先考虑的这个),在分析小数据的时候还是挺快的,数据量大了之后可能会产生内存分配失败的异常,32位下最大是2G,64位下理论上是可以达到2的64次方的,但是只要内有多余的内存分配就是抛出内存异常;而且在windows和linux下都需要独立安装,公司的有些服务器不提供安装许可,所以就不能用了
3.第三种使用python就行分片处理,python的问题和上面的lua一样,32位下允许2G,64位下允许2的64次方;linux系统基本都自带的有;但是即使是64位下加载数据大了之后也是会各种问题;
问题: 1.空闲可用内存用完后python就会很卡着不动,或者抛出MemoryErr的异样,这个可以用try -catch处理,也可以分段处理
2. python在读取文件的时候readline如果遇到无法识别的结束符eof的时候会报错(在gzip的部分版本是会出现的),可以使用try-catch处理或者更新gzip的库
4.第四种思路也是用python,就是将数据存入数据库就行处理,可以存入python自带的sqlite数据库(试过解析插入会比较慢);也可以存入redis这样的存储数据库会比较快
下面提供第三种的切片代码:
切片的思路有两种:
第一种是横向切片:就是按照常规的逻辑,每个文件的url就行合并统计,然后再就行一层一层的文件合并;这个的问题是如果url的重复率很低的话,后面的合并文件会越来越大,最终都会出现memoryErr的情况,好处是当URL