知乎笔试（二）——日志处理

最新推荐文章于 2020-06-18 18:18:43 发布

liushuaikobe

最新推荐文章于 2020-06-18 18:18:43 发布

阅读量3.3k

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/liushuaikobe/article/details/9370587

版权

前言

由于和上一篇日志间隔较长，我尽力回忆，把当时解答的过程还原出来，越来越讨厌CSDN的博客了，神马玩意啊，个人profile下面都插一个广告栏，弃用是迟早的事。

附上我的知乎： http://www.zhihu.com/people/liu-shuai-82。

题目内容

呃，拿到题目之后着实思考了一会，主要是思考各种处理方法的效率问题。后来又去搜索了一下业界这种数据处理的通用方式以及注意事项，基本上这种大数据的处理要用Hash。后来我确定了方法：

按天遍历每一条日志记录，为每一天创建一个临时文件，在内存中用用户id作为key，对应的“/topic/***”访问路径作为value。每遍历到一条访问路径是“/topic/***”的记录，判断内存中的hash表中是否已经有该条日志用户的id，有的话判断该id在hash表中的value——topic的路径与当前读到的日志记录的topic路径是否相同，如果不同的话，将id写到这一天对应的临时文件中。

上面的过程处理完毕之后，我们得到了30个临时文件，每个临时文件记录了一些用户的id，这些用户满足：在该天内，访问的“/topic/***”路径中，包含两个不同的路径。然后我们要做的是从这30个临时文件中找出一些id，它们在每个文件中都出现过。这些ID就是我们的最终结果。

后面一问，找出一个路径列表，用类似的hash处理方式即可。

按着这样的思路，不难写出代码：

import sys, re, os

re_exp_1 = re.compile('\[.+\] (\d+) \d+ [A-Za-z]+ /topic/(\d+) \(((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)\) [\d\.]+[a-zA-Z]+')
re_exp_2 = re.compile('\[.+\] (\d+) \d+ [A-Za-z]+ ([/a-zA-Z\d]+) \(((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)\) [\d\.]+[a-zA-Z]+')

def get_id_topic_path(log_line):
	'''
	return the uid and the subpath of topic via a tuple if match.
	'''
	m = re_exp_1.match(log_line

最低0.47元/天解锁文章

liushuaikobe

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
知乎笔试（二）——日志处理

前言由于和上一篇日志间隔较长，我尽力回忆，把当时解答的过程还原出来，越来越讨厌CSDN的博客了，神马玩意啊，个人profile下面都插一个广告栏，弃用是迟早的事。附上我的知乎：http://www.zhihu.com/people/liu-shuai-82。题目内容呃，拿到题目之后着实思考了一会，主要是思考各种处理方法的效率问题。后来又去搜索了一下业界这种数据处理的通用方式
复制链接

扫一扫