使用的是python3做的一个爬虫,主要用于爬取网贷之家上面的数据。比较粗糙,很多该封装的地方没有进行封装。如果需要每天进行的话,还需要人工进行操作。后期会考虑挂靠服务器定时进行爬取,哈哈先这么搞,剩下的以后再说。
import urllib
import requests #导入两个爬虫包,忘了是用哪个了,嘻嘻import re,time,pymysql #导入正则表达式、时间处理、mysql连接包
from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor #导入异步爬取框架
def url_get(url):#爬取每个平台的地址并返回
url='%s'%url
headers={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Accept-Encoding':'gzip, deflate',
'Accept-Language':'zh-CN,zh;q=0.8',
'Cache-Control':'no-cache',
'Connection':'keep-alive',
'Host': 'shuju.wdzj.com',
'Pragma': 'no - cache',
'User - Agent': 'Mozilla / 5.0(WindowsNT6.1;Win64;