python(2):使用python分析大日志文件思路及过程

最新推荐文章于 2024-03-15 09:54:35 发布

VIP文章 wenmoxiao

最新推荐文章于 2024-03-15 09:54:35 发布

阅读量1.7w

点赞数 2

分类专栏： python 文章标签： python 日志分析 MemoryErr

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wentianyao/article/details/71514448

版权

1.做服务器开发的经常会遇到要分析大量的日志，统计大量数据；这里介绍几种统计日志数据的方法和思路

之前有遇到过要统计几天内的url出现次数的事情，一天有24个gz压缩文件，每个文件大概6G左右，URL的不重复率也很高

使用方法:

1.用shell 解压然后在统计，shell脚本写起来麻烦，统计那一块很多人也不是很熟悉(不也不咋熟悉)，sort又很慢，用下面的方法进行md5转换就更慢了

while read line
   do
     # 将字符串使用md5sum转换然后截取有用的部分
     m5=$(echo $line |md5sum | awk '{print $1}')
     echo $m5 >> ./1/$filename"_txt"
   done < ./$filename"_txt"

2.使用lua(这个因为是本人最熟悉的脚本，所以先考虑的这个),在分析小数据的时候还是挺快的，数据量大了之后可能会产生内存分配失败的异常，32位下最大是2G，64位下理论上是可以达到2的64次方的，但是只要内有多余的内存分配就是抛出内存异常；而且在windows和linux下都需要独立安装，公司的有些服务器不提供安装许可，所以就不能用了

3.第三种使用python就行分片处理，python的问题和上面的lua一样，32位下允许2G,64位下允许2的64次方；linux系统基本都自带的有；但是即使是64位下加载数据大了之后也是会各种问题；

问题: 1.空闲可用内存用完后python就会很卡着不动，或者抛出MemoryErr的异样,这个可以用try -catch处理，也可以分段处理

2. python在读取文件的时候readline如果遇到无法识别的结束符eof的时候会报错(在gzip的部分版本是会出现的)，可以使用try-catch处理或者更新gzip的库

4.第四种思路也是用python，就是将数据存入数据库就行处理，可以存入python自带的sqlite数据库(试过解析插入会比较慢)；也可以存入redis这样的存储数据库会比较快

下面提供第三种的切片代码:

切片的思路有两种:

第一种是横向切片:就是按照常规的逻辑，每个文件的url就行合并统计，然后再就行一层一层的文件合并；这个的问题是如果url的重复率很低的话，后面的合并文件会越来越大，最终都会出现memoryErr的情况，好处是当URL

最低0.47元/天解锁文章

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
python(2):使用python分析大日志文件思路及过程

1.做服务器开发的经常会遇到要分析大量的日志，统计大量数据；这里介绍几种统计日志数据的方法和思路之前有遇到过要统计几天内的url出现次数的事情，一天有24个gz压缩文件，每个文件大概6G左右，URL的不重复率也很高使用方法:1.用shell 解压然后在统计，shell脚本写起来麻烦，统计那一块很多人也不是很熟悉(不也不咋熟悉)，sort又很慢，用下面的方法进行md5转换就更慢了 w
复制链接

扫一扫

专栏目录

wenmoxiao CSDN认证博客专家 CSDN认证企业博客

码龄13年

34: 原创

19万+: 周排名

110万+: 总排名

14万+: 访问

: 等级

1604: 积分

28: 粉丝

16: 获赞

24: 评论

84: 收藏

私信

关注

热门文章

分类专栏

C++基础库 12篇
数据库 6篇
lua 3篇
redis 2篇
linux 9篇
系统架构
网络 5篇
工具 1篇
shell 2篇
windows 3篇
协程 1篇
python 1篇
nginx 2篇

最新评论

线程同步(1):原子操作,内存屏障,锁综述
wenmoxiao: Linux内核设计与实现 -> 内核同步
线程同步(1):原子操作,内存屏障,锁综述
changqingwan: 能问问大佬是啥书吗？
lua(1):lua,luarocks介绍及lua库安装
一个业余写代码的: 可以说下你的艰辛路程吗，我掉坑里了，太难爬了，爬一下又掉进去的那种。
lua(1):lua,luarocks介绍及lua库安装
一个业余写代码的: [code=plain] Robotics@Robotics MINGW64 ~ $ where git C:\Program Files\Git\mingw64\bin\git.exe C:\Program Files\Git\cmd\git.exe Robotics@Robotics MINGW64 ~ $ [/code]
lua(1):lua,luarocks介绍及lua库安装
一个业余写代码的: [code=plain] Microsoft Windows [版本 10.0.18363.1316] (c) 2019 Microsoft Corporation。保留所有权利。 C:\Users\Robot>where git C:\Program Files\Git\cmd\git.exe C:\Program Files\Git\mingw64\bin\git.exe C:\Program Files\Git\bin\git.exe C:\Users\Robot> [/code]

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。