批量保存网页

最新推荐文章于 2024-08-12 15:04:10 发布

车子 chezi

最新推荐文章于 2024-08-12 15:04:10 发布

阅读量3.9k

点赞数 1

分类专栏：工具 python

本文链接：https://blog.csdn.net/longintchar/article/details/113914396

版权

工具同时被 2 个专栏收录

50 篇文章 5 订阅

订阅专栏

python

21 篇文章 4 订阅

订阅专栏

文章目录

背景

之前已经写了 2 篇文章：

备份 CSDN 博客（上）

备份 CSDN 博客（下）

但是效果都不怎么好，其实还有一种简单粗暴的方法，就是用浏览器下载，批量下载。

工具

我是 Ubuntu 的操作系统，自带火狐浏览器。要下载 3 个工具：

selenium
geckodriver
PyUserInput

Selenium

Selenium 是一个用于 Web应用程序测试的工具。Selenium 测试直接运行在浏览器中，浏览器自动按照脚本代码做出单击、输入、验证等操作，就像真正的用户在操作一样。

简而言之，我们可以利用 Selenium 来打开浏览器，输入网址，等待页面加载，点击按钮等一系列操作。一句话解释：Selenium 可以控制浏览器，做任何想做的事情。

geckodriver

仓库是 https://github.com/mozilla/geckodriver

geckodriver 实现了 WebDriver 协议描述的 HTTP API， selenium 用 geckodriver 与 Firefox 通信。geckodriver 充当本地端和远程端之间的代理。

PyUserInput

仓库是 https://github.com/SavinaRoja/PyUserInput/

一个用于在 python 中控制鼠标和键盘的模块。

除了上面 3 个，可能还需要安装 pip3，总之搜搜教程，该装啥装啥。

列一下我的版本：

selenium：3.141.0

火狐浏览器：85.0.1

geckodriver：0.22.0（0.29.0？）

python：3.5.2

工具下载和安装

这部分我不熟，都是参考网上的文章。

selenium：略，网上教程很多

geckodriver：

下载：

$ wget https://github.com/mozilla/geckodriver/releases/download/v0.22.0/geckodriver-v0.22.0-linux64.tar.gz

然后解压：

$ tar zxvf geckodriver-v0.22.0-linux64.tar.gz

$ geckodriver --version

在这里插入图片描述

最后是移动：

$ mv geckodriver /usr/local/bin

PyUserInput：

安装：

$ pip3 install PyUserInput

代码

下面的代码保存为 auto_save.py

from selenium import webdriver
from pykeyboard import PyKeyboard
import time
import fileinput

def save_page(url):	
	br.get(url)
	k = PyKeyboard()
	k.press_key(k.control_key)
	k.tap_key('s')
	k.release_key(k.control_key)
	time.sleep(2) # 非常重要
	k.tap_key(k.home_key)#定位到开始
	time.sleep(1)
	k.type_string('/mnt/hgfs/vm_share/blog_save/')# 保存路径
	time.sleep(1)
	k.tap_key(k.enter_key)
	time.sleep(2)


br = webdriver.Firefox()

i = 0
for line in fileinput.input():
	# 去掉末尾的换行
	url = line.replace('\n', '')
	print('process ' + url + '...')
	save_page(url)
	i = i+1
	print('第 ' + str(i) + ' 个下载完毕')

br.close()