我懂你的意思,我在做一个爬虫(结构比较简单的网页),将数据保存到csv,以下是代码,楼主可以参考。
import requests, csv, time
from lxml import etree
head = {'Cookie': '·······',
'User-Agent': '·······'}
url = 'http://www.···.···.cn/·····/min_1'
path = 'D:/test/Q**_data.csv' #保存路径
pages = 122422 #总共的页面数量
def restarting(dot):
try:
for i in range(dot, pages + 1):
print("Page " + str(i) + " collecting......")
urls = url + '?orderParam=&order···&pageNo=' + str(i)
text = requests.get(urls, headers=head).text
html = etree.HTML(text)
with open(path, "a", newline='', encoding='GB2312') as file:
tbhead = ['序号', '日期', '气温', '湿度', '水气压', '风速', '风向', '辐射', '气压', '降雨']
csv_file = csv.DictWriter(file, fieldnames=tbhead)
if i == 1:
csv_file.writeheader() #只在page1加表头
for n in range(1, 6): #每页只有5条记录
data = html.xpath('//tbody/tr['+str(n)+']/td/@data-value')
csv_file.writerow({'序号':(i-1)*5+n,'日期':data[0],'气温':data[1],'湿度':data[2],'水气压':data[3],'风速':data[4],'风向':data[5],'辐射':data[6],'气压':data[7],'降雨':data[8]})
#这里我不会用writerows()一次性写5行数据(好像需要pandas的DataFrame)
except Exception:
print("ERROR: Current page "+str(i)+"failed, retry in 10s...\n")
time.sleep(10)
return i
start_point = 1
while start_point < pages:
re = restarting(start_point)
start_point = re
以上就是完整的代码了,如图在第10562页出错会打印一个错误,但我记录下了这个error_point并赋值给了start_point,于是程序可以重新运行一次10562。
没有这么处理之前,如果10562页出错,(其他方式修改代码的话),要么退出程序(Process finished with exit code 1),要么虽然能继续但是是从10563开始而非10562。