[补充] Python 的回调函数及其在爬虫中的使用

python的回调函数及其在爬虫中的使用


  最近在学习爬虫时,看到了回调函数,原文叙述如下:

要想复用这段爬虫代码抓取其他网站,我们需要添加一个 callback 参数处理抓取行为。callback 是一个函数,在发
生某个特定事件之后会调用该函数(在本例中,会在网页下载完成后调用)。

  然后就产生了疑问,所以查了很多资料来理解这个东西,这里作为爬取数据的补充,记一个笔记。

回调函数

回调函数释义

  简单地说就是把一个函数作为参数传给另一个函数,在另一个函数中,由你决定什么时候用它,这个作为参数的函数就叫回调函数

  结合看到的网文,有两个说明个人觉得不错,给大家分享下:

1. 关于回调函数得底层:
  
  编程分为两类:系统编程(system programming)和应用编程(application programming)。所谓系统编程,简单来说,就是编写库;而应用编程就是利用写好的各种库来编写具某种功用的程序,也就是应用。系统程序员会给自己写的库留下一些接口,即API(application programming interface,应用编程接口),以供应用程序员使用。
  当程序跑起来时,一般情况下,应用程序(application program)会时常通过API调用库里所预先备好的函数。但是有些库函数(library function)却要求应用先传给它一个函数,好在合适的时候调用,以完成目标任务。这个被传入的、后又被调用的函数就称为回调函数(callback function)。
  
2.一个通俗易懂得例子:
  
  你到一个商店买东西,刚好你要的东西没有货,于是你在店员那里留下了你的电话,过了几天店里有货了,店员就打了你的电话,然后你接到电话后就到店里去取了货。在这个例子里,你的电话号码就叫回调函数,你把电话留给店员就叫登记回调函数,店里后来有货了叫做触发了回调关联的事件,店员给你打电话叫做调用回调函数,你到店里去取货叫做响应回调事件。

回调函数代码示例

#回调函数1
#生成一个2k形式的偶数
def double(x):
    return x * 2
    
#回调函数2
#生成一个4k形式的偶数
def quadruple(x):
    return x * 4

def getOddNumber(k, getEvenNumber):
    return 1 + getEvenNumber(k)
    
#起始函数,这里是程序的主函数
def main():    
    k = 1
    #当需要生成一个2k+1形式的奇数时
    i = getOddNumber(k, double)
    print(i)
    #当需要一个4k+1形式的奇数时
    i = getOddNumber(k, quadruple)
    print(i)
    #当需要一个8k+1形式的奇数时
    i = getOddNumber(k, lambda x: x * 8)
    print(i)
    
if __name__ == "__main__":
    main()

3
5
9

  说白了,回调函数和普通函数在定义的时候没有什么区别,只有在调用时才看出来是不是回调函数,正常调用就是普通函数,作为一个函数的参数在需要的时候分情况调用,就是回调函数。

  另外,回调函数还可以进行异步调用,即非阻塞调用,通常用在多线程或者多进程中。暂时没用到,先了解。

爬虫中的回调函数

import requests
# 一个高效循环的迭代函数集合  
# Itertools.count(start=0, step=1) 创建一个迭代对象,生成从start开始的连续整数,步长为step。
import itertools 
from lxml.html import fromstring
import re
import pandas as pd

def res_download(url, user_agent='wswp', num_retries=2, proxies=None): 
#     print('Downloading:', url) 
    headers = {'User-Agent': user_agent} 
    try: 
        resp = requests.get(url, headers=headers, proxies=proxies) 
        html = resp.text 
        if resp.status_code >= 400: 
            print('Download error:', resp.text) 
            html = None 
            if num_retries and 500 <= resp.status_code < 600:  # 发生服务器错误重试
                # recursively retry 5xx HTTP errors 
                return download(url, num_retries - 1) 
    except requests.exceptions.RequestException as e: 
        
        print('Download error:', e.reason) 
        html = None
    return html

# 抓取主ulr下的第二层url
def crawl_site(url): 
    url_list = []
    
    for page in itertools.count(1): 
        pg_url = '{}{}'.format(url, page) 
        html = res_download(pg_url) 
        
        if html is None: 
            break 
        else:
            url_list.append(pg_url)
            
    return url_list
    

# 定义回调函数  抓取二级url的内容
def scrape_callback(url, html): 
    fields = ('area', 'population', 'iso', 'country_or_district', 'capital', 
 'continent', 'tld', 'currency_code', 'currency_name', 
 'phone', 'postal_code_format', 'postal_code_regex', 
 'languages', 'neighbours') 
    if re.search('/view/', url): 
        
        tree = fromstring(html) 
        all_rows = [
            tree.xpath('//tr[@id="places_%s__row"]/td[@class="w2p_fw"]' % field)[0].text_content() 
            for field in fields] 
        return all_rows
        

# 主函数(也可以叫中间函数,用来调用回调函数)
def link_crawler(base_url, scrape_callback):
    url_list = crawl_site(base_url)
    data = []
    if scrape_callback:
        for url in url_list:
            response = res_download(url, user_agent='wswp', num_retries=2)
            data.append(scrape_callback(url,response))
    data_data = pd.DataFrame(columns=['area', 'population', 'iso', 'country_or_district', 'capital', 
 'continent', 'tld', 'currency_code', 'currency_name', 
 'phone', 'postal_code_format', 'postal_code_regex', 
 'languages', 'neighbours'],
                         data=data)
    return data_data


test = link_crawler('http://example.python-scraping.com/view/-', scrape_callback)
test.head(10)



  这么看来,确实回调函数和普通函数差不多,只是一个被当成参数传进了另一个函数,貌似直接调用也可以实现???????????



参考文献:

  

原文作者:no.body

原文链接:https://www.zhihu.com/question/19801131/answer/27459821

原文来源:知乎

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值