使用selenium需要启动浏览器,当然必要的环境肯定要支持啦,做爬虫效率也没有框架来的快,但是我喜欢啊(调皮)
这是一个可以进行多窗口抓取的demo,可以根据自己的需求进行更改
from selenium import webdriver
from selenium.webdriver.common.by import By
# WebDriverWait 库,负责循环等待
from selenium.webdriver.support.ui import WebDriverWait
# expected_conditions 类,负责条件出发
from selenium.webdriver.support import expected_conditions as EC
from lxml import etree
import time
class LogouSpider():
def __init__(self):
self.driver = webdriver.Chrome()
self.url = 'https://www.baidu.com/'
def run(self):
self.driver.get(self.url)
url = 'http://news.baidu.com'
source = self.parse_detail(url)
def parse_detail(self, url):
self.driver.execute_script('window.open("%s")' % url)
self.driver.switch_to.window(self.driver.window_handles[1])
#等待页面元素加载,不能是文本信息
WebDriverWait(self.dri