需要安装python的selenium模块,这是一个浏览器自动化的框架。然后我是使用chrome浏览器的,所以还需要安装一个chromedriver。还有一个爬虫框架bs4。
selenium和bs4直接用pip安装,在终端下执行:
pip install selenium
pip install Beautifulsoup4
chromedriver安装参考这个网址:
https://www.cnblogs.com/technologylife/p/5829944.html
然后进入正文,总的流程就是解析网址的html,取出超链接逐个访问,然后截图到本地的文件夹里,目前实现的版本还没有分类,只是把图片全部存到一个文件夹里。
总的代码如下:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import requests
from bs4 import BeautifulSoup
import time
i=0 #目前暂时先用一个计数来表示图片的文件名
def getScreenShot(url):
'''
此函数用于根据url访问网页,并截图到本地文件夹
'''
global i #全局变量
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add