文章为个人学习工作过程中遇到的实际问题,在此做记录,日后好查询。
一、问题描述
在工作和学习中经常会遇到需要基于表格中的某些字段,以此作为参数,大量调用接口的情况,遂总结一套Python调用接口并记录数据的通用模板,方便后续应用。
二、解决方法
import pandas as pd
import requests
import json
import urllib.parse
from multiprocessing.dummy import Pool as ThreadPool
k = 0
def API_name(param):
#每500条打印一次语句,作为进度监控
global k
k += 1
if k % 500 == 0:
print(f'已获取{k}条记录') #每500条打印一次语句,作为进度监控
#获取参数
param1=param[0]
param2=param[1]
#如果传入的数据中含有#字符,会影响接口调用,所以需要额外处理这种情况,如果没有就可以删掉
try:
param1= urllib.parse.quote(str(param1)).replace('#', '%23')
except Exception as e:
param1= ''
#调用接口,GET方式
try:
url = '接口链接¶m1={}¶m2={}¶m3=XX'.format(param1,param2) #接口链接,以及需要传入的参数,我这里设定了2个可变参数,一个固定写死的参数。接口链接请自行替换.
resp = json.loads(requests.get(url).text) #这里用get方式调用,获取数据存为resp,一般是json格式
#开始处理获取的json数据,具体的方式根据json嵌套层级的不同会有差别,以下是2-3层嵌套的情况
if resp['status'] == 0: #调用状态成功的情况,获取所需的infoA和infoB字段
infoA=resp['result1']['result2'][0]['infoA']
infoB=resp['result1']['infoB']
return infoA,infoB
else:
return 'Error',None
except Exception as e:
return 'Exception',e
#主函数
if __name__ == '__main__':
#读取参数数据至dataframe
filepath=r'文件路径'
A=pd.read_excel(filepath)
#开始调用,设置多线程
pool = ThreadPool(1) #几线程就填几,要看接口的性能,最好不要过高,5以内最好。
outcome = pool.map(API_name,zip(A['param1'].values,A['param2'].values)) #map中填好上面定好的函数名,并设置好传入哪些参数,与上面函数设定的部分要保持一致
outcome = pd.Series(outcome).apply(pd.Series) #将调用好的结果转为series格式
outcome.columns = ['infoA', 'infoB'] #赋予列名
A = A.join(outcome) #与原始的数据关联起来
A.to_excel(r'输出文件路径')