最近在学习爬虫时,看到了回调函数,原文叙述如下:
要想复用这段爬虫代码抓取其他网站,我们需要添加一个 callback 参数处理抓取行为。callback 是一个函数,在发
生某个特定事件之后会调用该函数(在本例中,会在网页下载完成后调用)。
然后就产生了疑问,所以查了很多资料来理解这个东西,这里作为爬取数据的补充,记一个笔记。
回调函数
回调函数释义
简单地说就是把一个函数作为参数传给另一个函数,在另一个函数中,由你决定什么时候用它,这个作为参数的函数就叫回调函数。
结合看到的网文,有两个说明个人觉得不错,给大家分享下:
1. 关于回调函数得底层:
编程分为两类:系统编程(system programming)和应用编程(application programming)。所谓系统编程,简单来说,就是编写库;而应用编程就是利用写好的各种库来编写具某种功用的程序,也就是应用。系统程序员会给自己写的库留下一些接口,即API(application programming interface,应用编程接口),以供应用程序员使用。
当程序跑起来时,一般情况下,应用程序(application program)会时常通过API调用库里所预先备好的函数。但是有些库函数(library function)却要求应用先传给它一个函数,好在合适的时候调用,以完成目标任务。这个被传入的、后又被调用的函数就称为回调函数(callback function)。
2.一个通俗易懂得例子:
你到一个商店买东西,刚好你要的东西没有货,于是你在店员那里留下了你的电话,过了几天店里有货了,店员就打了你的电话,然后你接到电话后就到店里去取了货。在这个例子里,你的电话号码就叫回调函数,你把电话留给店员就叫登记回调函数,店里后来有货了叫做触发了回调关联的事件,店员给你打电话叫做调用回调函数,你到店里去取货叫做响应回调事件。
回调函数代码示例
#回调函数1
#生成一个2k形式的偶数
def double(x):
return x * 2
#回调函数2
#生成一个4k形式的偶数
def quadruple(x):
return x * 4
def getOddNumber(k, getEvenNumber):
return 1 + getEvenNumber(k)
#起始函数,这里是程序的主函数
def main():
k = 1
#当需要生成一个2k+1形式的奇数时
i = getOddNumber(k, double)
print(i)
#当需要一个4k+1形式的奇数时
i = getOddNumber(k, quadruple)
print(i)
#当需要一个8k+1形式的奇数时
i = getOddNumber(k, lambda x: x * 8)
print(i)
if __name__ == "__main__":
main()
3
5
9
说白了,回调函数和普通函数在定义的时候没有什么区别,只有在调用时才看出来是不是回调函数,正常调用就是普通函数,作为一个函数的参数在需要的时候分情况调用,就是回调函数。
另外,回调函数还可以进行异步调用,即非阻塞调用,通常用在多线程或者多进程中。暂时没用到,先了解。
爬虫中的回调函数
import requests
# 一个高效循环的迭代函数集合
# Itertools.count(start=0, step=1) 创建一个迭代对象,生成从start开始的连续整数,步长为step。
import itertools
from lxml.html import fromstring
import re
import pandas as pd
def res_download(url, user_agent='wswp', num_retries=2, proxies=None):
# print('Downloading:', url)
headers = {'User-Agent': user_agent}
try:
resp = requests.get(url, headers=headers, proxies=proxies)
html = resp.text
if resp.status_code >= 400:
print('Download error:', resp.text)
html = None
if num_retries and 500 <= resp.status_code < 600: # 发生服务器错误重试
# recursively retry 5xx HTTP errors
return download(url, num_retries - 1)
except requests.exceptions.RequestException as e:
print('Download error:', e.reason)
html = None
return html
# 抓取主ulr下的第二层url
def crawl_site(url):
url_list = []
for page in itertools.count(1):
pg_url = '{}{}'.format(url, page)
html = res_download(pg_url)
if html is None:
break
else:
url_list.append(pg_url)
return url_list
# 定义回调函数 抓取二级url的内容
def scrape_callback(url, html):
fields = ('area', 'population', 'iso', 'country_or_district', 'capital',
'continent', 'tld', 'currency_code', 'currency_name',
'phone', 'postal_code_format', 'postal_code_regex',
'languages', 'neighbours')
if re.search('/view/', url):
tree = fromstring(html)
all_rows = [
tree.xpath('//tr[@id="places_%s__row"]/td[@class="w2p_fw"]' % field)[0].text_content()
for field in fields]
return all_rows
# 主函数(也可以叫中间函数,用来调用回调函数)
def link_crawler(base_url, scrape_callback):
url_list = crawl_site(base_url)
data = []
if scrape_callback:
for url in url_list:
response = res_download(url, user_agent='wswp', num_retries=2)
data.append(scrape_callback(url,response))
data_data = pd.DataFrame(columns=['area', 'population', 'iso', 'country_or_district', 'capital',
'continent', 'tld', 'currency_code', 'currency_name',
'phone', 'postal_code_format', 'postal_code_regex',
'languages', 'neighbours'],
data=data)
return data_data
test = link_crawler('http://example.python-scraping.com/view/-', scrape_callback)
test.head(10)
这么看来,确实回调函数和普通函数差不多,只是一个被当成参数传进了另一个函数,貌似直接调用也可以实现???????????
参考文献:
原文作者:no.body
原文链接:https://www.zhihu.com/question/19801131/answer/27459821
原文来源:知乎