python爬虫selenium爬取开开贷黑名单

本文介绍了如何使用Python的selenium库改进爬取开开贷黑名单数据的自动化程度。通过提取页面信息自动获取页数和每页记录数,利用列表存储数据,采用CSS选择器抓取内容,并将代码封装为函数,同时处理异常和超时问题。尽管selenium对于动态网页有优势,但在此案例中爬取速度较慢,378条数据耗时超过400秒。
摘要由CSDN通过智能技术生成

第一次用selenium爬取黑名单数据,但是不够自动化,页面总长和每页有多少条记录都是手动设置变量添加的,很不智能。

这次代码改进了一下内容:

(1)把页码有关的信息切出来,自动获取页数

(2)查找每页有多少记录

(3)利用两个list保存数据,更好维护

(4)利用css_selector获取数据,并且改了

(5)写成了函数,更加规范

(6)抛出异常

(7)timeout的问题,原来设置了30,后来timeout抛出了异常,改为120

题外话:selenium很方便,最大的好处是解决了动态网页的问题,虽然本题不是动态网页,但是相对速度也慢些,爬取378条数据需要超过400秒。

import time,csv
import traceback
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
url_whole='http://www.kaikaidai.com/Lend/Black.aspx'

# 加载所有页面
def parsePage():
  #设置驱动浏览器s
  browser=webdriver.Chrome()

  #设置响应
  browser.set_page_load_timeout(120)

  #获取网址
  browser.get(url_whole)
  #找多少页
  page_info=browser.find_element_
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值