python三层装饰器-python装饰器的一个妙用

好吧,我知道是大半夜……,但我还是觉得赶紧花上半个小时,把这最新的想法分享出来是值得的~直接进入正题~ 我们来模拟一个场景,需要你去抓去一个页面,然后这个页面有好多url也要分别去抓取,而进入这些子url后,还有数据要抓取。简单点,我们就按照三层来看,那我们的代码就是如下:

def func_top(url):

data_dict= {}

#在页面上获取到子url

sub_urls = xxxx

data_list = []

for it in sub_urls:

data_list.append(func_sub(it))

data_dict['data'] = data_list

return data_dict

def func_sub(url):

data_dict= {}

#在页面上获取到子url

bottom_urls = xxxx

data_list = []

for it in bottom_urls:

data_list.append(func_bottom(it))

data_dict['data'] = data_list

return data_dict

def func_bottom(url):

#获取数据

data = xxxx

return data

func_top是上层页面的处理函数,func_sub是子页面的处理函数,func_bottom是最深层页面的处理函数,func_top会在取到子页面url后遍历调用func_sub,func_sub也是同样。 如果正常情况下,这样确实已经满足需求了,但是偏偏这个你要抓取的网站可能极不稳定,经常链接不上,导致数据拿不到。 于是这个时候你有两个选择:

1.遇到错误就停止,之后重新从断掉的位置开始重新跑

2.遇到错误继续,但是要在之后重新跑一遍,这个时候已经有的数据不希望再去网站拉一次,而只去拉没有取到的数据

对第一种方案基本无法实现,因为如果别人网站的url调整顺序,那么你记录的位置就无效了。那么只有第二种方案,说白了,就是要把已经拿到的数据cache下来,等需要的时候,直接从cache里面取。 OK,目标已经有了,怎么实现呢? 如果是在C++中的,这是个很麻烦的事情,而且写出来的代码必定丑陋无比,然而庆幸的是,我们用的是python,而python对函数有装饰器。 所以实现方案也就有了: 定义一个装饰器,如果之前取到数据,就直接取cache的数据;如果之前没有取到,那么就从网站拉取,并且存入cache中. 代码如下:

import os

import hashlib

def deco_args_recent_cache(category='dumps'):

'''

装饰器,返回最新cache的数据

'''

def deco_recent_cache(func):

def func_wrapper(*args, **kargs):

sig = _mk_cache_sig(*args, **kargs)

data = _get_recent_cache(category, func.__name__, sig)

if data is not None:

return data

data = func(*args, **kargs)

if data is not None:

_set_recent_cache(category, func.__name__, sig, data)

return data

return func_wrapper

return deco_recent_cache

def _mk_cache_sig(*args, **kargs):

'''

通过传入参数,生成唯一标识

'''

src_data = repr(args) + repr(kargs)

m = hashlib.md5(src_data)

sig = m.hexdigest()

return sig

def _get_recent_cache(category, func_name, sig):

full_file_path = '%s/%s/%s' % (category, func_name, sig)

if os.path.isfile(full_file_path):

return eval(file(full_file_path,'r').read())

else:

return None

def _set_recent_cache(category, func_name, sig, data):

full_dir_path = '%s/%s' % (category, func_name)

if not os.path.isdir(full_dir_path):

os.makedirs(full_dir_path)

full_file_path = '%s/%s/%s' % (category, func_name, sig)

f = file(full_file_path, 'w+')

f.write(repr(data))

f.close()

然后,我们只需要在每个func_top,func_sub,func_bottom都加上deco_args_recent_cache这个装饰器即可~~ 搞定!这样做最大的好处在于,因为top,sub,bottom,每一层都会dump数据,所以比如某个sub层数据dump之后,是根本不会走到他所对应的bottom层的,减少了大量的开销! OK,就这样~ 人生苦短,我用python!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值