[补充] Python 的回调函数及其在爬虫中的使用

最新推荐文章于 2023-02-13 22:47:52 发布

小陈步吃人

最新推荐文章于 2023-02-13 22:47:52 发布

阅读量727

点赞数 1

分类专栏：从这里开始你的Python爬虫之旅文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/Itsme_MrJJ/article/details/124966983

版权

从这里开始你的Python爬虫之旅专栏收录该内容

5 篇文章 0 订阅

订阅专栏

python的回调函数及其在爬虫中的使用

回调函数
- - 回调函数释义
  - 回调函数代码示例
爬虫中的回调函数

最近在学习爬虫时，看到了回调函数，原文叙述如下：

要想复用这段爬虫代码抓取其他网站，我们需要添加一个 callback 参数处理抓取行为。callback 是一个函数，在发
生某个特定事件之后会调用该函数（在本例中，会在网页下载完成后调用）。

然后就产生了疑问，所以查了很多资料来理解这个东西，这里作为爬取数据的补充，记一个笔记。

回调函数

回调函数释义

简单地说就是把一个函数作为参数传给另一个函数，在另一个函数中，由你决定什么时候用它，这个作为参数的函数就叫回调函数。

结合看到的网文，有两个说明个人觉得不错，给大家分享下：

1. 关于回调函数得底层：

编程分为两类：系统编程（system programming）和应用编程（application programming）。所谓系统编程，简单来说，就是编写库；而应用编程就是利用写好的各种库来编写具某种功用的程序，也就是应用。系统程序员会给自己写的库留下一些接口，即API（application programming interface，应用编程接口），以供应用程序员使用。
当程序跑起来时，一般情况下，应用程序（application program）会时常通过API调用库里所预先备好的函数。但是有些库函数（library function）却要求应用先传给它一个函数，好在合适的时候调用，以完成目标任务。这个被传入的、后又被调用的函数就称为回调函数（callback function）。

2.一个通俗易懂得例子：

你到一个商店买东西，刚好你要的东西没有货，于是你在店员那里留下了你的电话，过了几天店里有货了，店员就打了你的电话，然后你接到电话后就到店里去取了货。在这个例子里，你的电话号码就叫回调函数，你把电话留给店员就叫登记回调函数，店里后来有货了叫做触发了回调关联的事件，店员给你打电话叫做调用回调函数，你到店里去取货叫做响应回调事件。

回调函数代码示例

#回调函数1
#生成一个2k形式的偶数
def double(x):
    return x * 2
    
#回调函数2
#生成一个4k形式的偶数
def quadruple(x):
    return x * 4

def getOddNumber(k, getEvenNumber):
    return 1 + getEvenNumber(k)
    
#起始函数，这里是程序的主函数
def main():    
    k = 1
    #当需要生成一个2k+1形式的奇数时
    i = getOddNumber(k, double)
    print(i)
    #当需要一个4k+1形式的奇数时
    i = getOddNumber(k, quadruple)
    print(i)
    #当需要一个8k+1形式的奇数时
    i = getOddNumber(k, lambda x: x * 8)
    print(i)
    
if __name__ == "__main__":
    main()

3
5
9

说白了，回调函数和普通函数在定义的时候没有什么区别，只有在调用时才看出来是不是回调函数，正常调用就是普通函数，作为一个函数的参数在需要的时候分情况调用，就是回调函数。

另外，回调函数还可以进行异步调用，即非阻塞调用，通常用在多线程或者多进程中。暂时没用到，先了解。

爬虫中的回调函数

import requests
# 一个高效循环的迭代函数集合  
# Itertools.count(start=0, step=1) 创建一个迭代对象，生成从start开始的连续整数，步长为step。
import itertools 
from lxml.html import fromstring
import re
import pandas as pd

def res_download(url, user_agent='wswp', num_retries=2, proxies=None): 
#     print('Downloading:', url) 
    headers = {'User-Agent': user_agent} 
    try: 
        resp = requests.get(url, headers=headers, proxies=proxies) 
        html = resp.text 
        if resp.status_code >= 400: 
            print('Download error:', resp.text) 
            html = None 
            if num_retries and 500 <= resp.status_code < 600:  # 发生服务器错误重试
                # recursively retry 5xx HTTP errors 
                return download(url, num_retries - 1) 
    except requests.exceptions.RequestException as e: 
        
        print('Download error:', e.reason) 
        html = None
    return html

# 抓取主ulr下的第二层url
def crawl_site(url): 
    url_list = []
    
    for page in itertools.count(1): 
        pg_url = '{}{}'.format(url, page) 
        html = res_download(pg_url) 
        
        if html is None: 
            break 
        else:
            url_list.append(pg_url)
            
    return url_list
    

# 定义回调函数  抓取二级url的内容
def scrape_callback(url, html): 
    fields = ('area', 'population', 'iso', 'country_or_district', 'capital', 
 'continent', 'tld', 'currency_code', 'currency_name', 
 'phone', 'postal_code_format', 'postal_code_regex', 
 'languages', 'neighbours') 
    if re.search('/view/', url): 
        
        tree = fromstring(html) 
        all_rows = [
            tree.xpath('//tr[@id="places_%s__row"]/td[@class="w2p_fw"]' % field)[0].text_content() 
            for field in fields] 
        return all_rows
        

# 主函数（也可以叫中间函数，用来调用回调函数）
def link_crawler(base_url, scrape_callback):
    url_list = crawl_site(base_url)
    data = []
    if scrape_callback:
        for url in url_list:
            response = res_download(url, user_agent='wswp', num_retries=2)
            data.append(scrape_callback(url,response))
    data_data = pd.DataFrame(columns=['area', 'population', 'iso', 'country_or_district', 'capital', 
 'continent', 'tld', 'currency_code', 'currency_name', 
 'phone', 'postal_code_format', 'postal_code_regex', 
 'languages', 'neighbours'],
                         data=data)
    return data_data


test = link_crawler('http://example.python-scraping.com/view/-', scrape_callback)
test.head(10)

这么看来，确实回调函数和普通函数差不多，只是一个被当成参数传进了另一个函数，貌似直接调用也可以实现？？？？？？？？？？？

参考文献：

原文作者：no.body

原文链接：https://www.zhihu.com/question/19801131/answer/27459821

原文来源：知乎

小陈步吃人

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[补充] Python 的回调函数及其在爬虫中的使用

python的回调函数及其在爬虫中的使用回调函数回调函数释义回调函数代码示例爬虫中的回调函数最近在学习爬虫时，看到了回调函数，原文叙述如下：要想复用这段爬虫代码抓取其他网站，我们需要添加一个 callback 参数处理抓取行为。callback 是一个函数，在发生某个特定事件之后会调用该函数（在本例中，会在网页下载完成后调用）。然后就产生了疑问，所以查了很多资料来理解这个东西，这里作为爬取数据的补充，记一个笔记。回调函数回调函数释义简单地说就是把一个函数作为参数传给另一个函数，
复制链接

扫一扫

专栏目录