背景
在抓取动态网页失败的时候,了解到selenium+chromedriver可以比较方便实现动态网页抓取-利用Python抓取煎蛋网妹子图,但是仿照案例中写的代码运行出错。
源代码(测试代码,没有参考学习价值,仅供测试):
# -*- coding:utf-8 -*-
import urllib.request
import json
import os
import re
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.chrome.options import Options
# 下载page_number页前的所有图片
# def
s = r'img src=\"(.+jpg)'
re_hmtl = re.compile(s)
def getPage(url):
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
driver = webdriver.Chrome(chrome_options = chrome_options)
dirver.get(url)
return driver.page_source
def save_imgs(folder, page_number):
if(os.path.exists(folder)