利用网络爬虫备份某论坛历史数据

爱写bug的疼老师

已于 2022-02-09 10:54:45 修改

阅读量330

点赞数

分类专栏： python 文章标签： python 爬虫

于 2022-02-07 10:05:33 首次发布

本文链接：https://blog.csdn.net/sinat_32092165/article/details/122804651

版权

本文讲述了如何利用Python爬虫技术备份一个军事论坛的历史文章中的图片。通过遍历txt文件，提取图片URL并下载，成功保存了一万七千多张照片。

摘要由CSDN通过智能技术生成

前一阵子某军事论坛网站关闭了，姥爷是十多年的老用户，就委托我帮他把历史文章导出。导出后是这个样子。

点开txt文件，我们能发现，图片以链接的形式存在文本文档中。

因为用了十多年，文字和图片的量真的不小。如何把这些图片也全部保存下来？这正好是爬虫的用武之地。

总体思路如下：

1.遍历文件夹中所有的txt文件。

2.对每个txt进行读取，利用正则表达式，提取其中的图片网址url，加入到列表中。

3.遍历列表中的url，进行保存

代码如下所示：

import os
import re
import urllib.request
imgURLs = []
fileNames = []
#将文件夹中所有txt文件名保存到fileNames中
path = r"C:\Users\teng\Downloads\20220120"
paths = os.walk(path)
for path, dir_lst, file_lst in paths:
    for fileName in file_lst:
        fileNames.append(os.path.join(path,fileName))

#将一个txt中所有图片

最低0.47元/天解锁文章

爱写bug的疼老师

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
利用网络爬虫备份某论坛历史数据

前一阵子铁血网站关闭了，姥爷是铁血十多年的老用户，就委托我帮他把历史文章导出。导出后是这个样子。点开txt文件，我们能发现，图片以链接的形式存在文本文档中。因为用了十多年，文字和图片的量真的不小。如何把这些图片也全部保存下来？这正好是爬虫的用武之地。总体思路如下：1.遍历文件夹中所有的txt文件。2.对每个txt进行读取，利用正则表达式，提取其中的图片网址url，加入到列表中。3.遍历列表中的url，进行保存代码如下所示：import osimport reimp.
复制链接

扫一扫

专栏目录