python爬虫selenium爬取开开贷黑名单

最新推荐文章于 2022-03-19 17:50:21 发布

ElsaRememberAllBug

最新推荐文章于 2022-03-19 17:50:21 发布

阅读量825

点赞数

分类专栏： python，爬虫，selenium 文章标签： python 爬虫 selenium

本文链接：https://blog.csdn.net/ElsaRememberAllBug/article/details/78781109

版权

本文介绍了如何使用Python的selenium库改进爬取开开贷黑名单数据的自动化程度。通过提取页面信息自动获取页数和每页记录数，利用列表存储数据，采用CSS选择器抓取内容，并将代码封装为函数，同时处理异常和超时问题。尽管selenium对于动态网页有优势，但在此案例中爬取速度较慢，378条数据耗时超过400秒。

摘要由CSDN通过智能技术生成

第一次用selenium爬取黑名单数据，但是不够自动化，页面总长和每页有多少条记录都是手动设置变量添加的，很不智能。

这次代码改进了一下内容：

（1）把页码有关的信息切出来，自动获取页数

（2）查找每页有多少记录

（3）利用两个list保存数据，更好维护

（4）利用css_selector获取数据，并且改了

（5）写成了函数，更加规范

（6）抛出异常

（7）timeout的问题，原来设置了30，后来timeout抛出了异常，改为120

题外话：selenium很方便，最大的好处是解决了动态网页的问题，虽然本题不是动态网页，但是相对速度也慢些，爬取378条数据需要超过400秒。

import time,csv
import traceback
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
url_whole='http://www.kaikaidai.com/Lend/Black.aspx'

# 加载所有页面
def parsePage():
  #设置驱动浏览器s
  browser=webdriver.Chrome()

  #设置响应
  browser.set_page_load_timeout(120)

  #获取网址
  browser.get(url_whole)
  #找多少页
  page_info=browser.find_element_