前一阵子某军事论坛网站关闭了,姥爷是十多年的老用户,就委托我帮他把历史文章导出。导出后是这个样子。
点开txt文件,我们能发现,图片以链接的形式存在文本文档中。
因为用了十多年,文字和图片的量真的不小。如何把这些图片也全部保存下来?这正好是爬虫的用武之地。
总体思路如下:
1.遍历文件夹中所有的txt文件。
2.对每个txt进行读取,利用正则表达式,提取其中的图片网址url,加入到列表中。
3.遍历列表中的url,进行保存
代码如下所示:
import os
import re
import urllib.request
imgURLs = []
fileNames = []
#将文件夹中所有txt文件名保存到fileNames中
path = r"C:\Users\teng\Downloads\20220120"
paths = os.walk(path)
for path, dir_lst, file_lst in paths:
for fileName in file_lst:
fileNames.append(os.path.join(path,fileName))
#将一个txt中所有图片