python(2):使用python分析大日志文件思路及过程

1.做服务器开发的经常会遇到要分析大量的日志,统计大量数据;这里介绍几种统计日志数据的方法和思路

之前有遇到过要统计几天内的url出现次数的事情,一天有24个gz压缩文件,每个文件大概6G左右,URL的不重复率也很高

使用方法:

1.用shell 解压然后在统计,shell脚本写起来麻烦,统计那一块很多人也不是很熟悉(不也不咋熟悉),sort又很慢,用下面的方法进行md5转换就更慢了

 while read line
   do 
     # 将字符串使用md5sum转换然后截取有用的部分
     m5=$(echo $line |md5sum | awk '{print $1}')
     echo $m5 >> ./1/$filename"_txt"
   done < ./$filename"_txt" 

2.使用lua(这个因为是本人最熟悉的脚本,所以先考虑的这个),在分析小数据的时候还是挺快的,数据量大了之后可能会产生内存分配失败的异常,32位下最大是2G,64位下理论上是可以达到2的64次方的,但是只要内有多余的内存分配就是抛出内存异常;而且在windows和linux下都需要独立安装,公司的有些服务器不提供安装许可,所以就不能用了


3.第三种使用python就行分片处理,python的问题和上面的lua一样,32位下允许2G,64位下允许2的64次方;linux系统基本都自带的有;但是即使是64位下加载数据大了之后也是会各种问题;

 问题: 1.空闲可用内存用完后python就会很卡着不动,或者抛出MemoryErr的异样,这个可以用try -catch处理,也可以分段处理

   2. python在读取文件的时候readline如果遇到无法识别的结束符eof的时候会报错(在gzip的部分版本是会出现的),可以使用try-catch处理或者更新gzip的库


4.第四种思路也是用python,就是将数据存入数据库就行处理,可以存入python自带的sqlite数据库(试过解析插入会比较慢);也可以存入redis这样的存储数据库会比较快


下面提供第三种的切片代码:

  切片的思路有两种:

     第一种是横向切片:就是按照常规的逻辑,每个文件的url就行合并统计,然后再就行一层一层的文件合并;这个的问题是如果url的重复率很低的话,后面的合并文件会越来越大,最终都会出现memoryErr的情况,好处是当URL

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值