在我们使用Selenium Python制作自动爬虫和网页自动测试的时候,通常会遇到弹出新的窗体或对话框的时候,此时你捕获的窗体已经被打断,从而干扰你的爬虫。
那怎么解决这个问题呢?
本篇文章主要记录两段代码解决这类问题:
第一个是click()函数点击超链接后,需要捕获弹出新窗体的信息,此时需要调用switch_to_window()函数切换窗体,再捕获新的数据;
第二个是click()函数点击超链接后,弹出登录的对话框,比如百度首页登录,此时需要调用switch_to_alert()函数获取该alert对象。
文章主要是结合实际问题进行叙述,内容比较基础,希望对您有所帮助,如果存在错误或不足之处,还请海涵。更多爬虫主题参考我的专栏:http://blog.csdn.net/column/details/eastmount-spider.html
一. Switch_to_window函数实现窗体切换
在使用Selenium爬取知识过程,通常会遇到_blank弹出新窗体,或窗体是弹出的那种情况,而且有的需要登录,如:新浪微博、公众号、京东等,使用webdriver.Firefox()重新打开新窗体是无法加载已有信息的。这时候就需要通过获取当前句柄再进行窗口切换。
这里使用该方法实现获取CSDN知识库的关键词的标题及超链接信息,因为它是_blank弹出新窗体,再获取弹出窗体的技术介绍。需要注意每次窗口句柄移动都需要重新定位它们的主窗体。
核心代码:
# -*- coding: utf-8 -*-
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
import os
#访问链接
driver = webdriver.Firefox()
url = "http://lib.csdn.net/"
driver.get(url)
elem_div = driver.find_elements_by_xpath("//ul[@class='list01 clearfix']/li/div[2]/a")
#获取当前窗口句柄