利用网络爬虫备份某论坛历史数据

本文讲述了如何利用Python爬虫技术备份一个军事论坛的历史文章中的图片。通过遍历txt文件,提取图片URL并下载,成功保存了一万七千多张照片。
摘要由CSDN通过智能技术生成

前一阵子某军事论坛网站关闭了,姥爷是十多年的老用户,就委托我帮他把历史文章导出。导出后是这个样子。

 点开txt文件,我们能发现,图片以链接的形式存在文本文档中。

因为用了十多年,文字和图片的量真的不小。如何把这些图片也全部保存下来?这正好是爬虫的用武之地。

总体思路如下:

1.遍历文件夹中所有的txt文件。

2.对每个txt进行读取,利用正则表达式,提取其中的图片网址url,加入到列表中。

3.遍历列表中的url,进行保存

代码如下所示:

import os
import re
import urllib.request
imgURLs = []
fileNames = []
#将文件夹中所有txt文件名保存到fileNames中
path = r"C:\Users\teng\Downloads\20220120"
paths = os.walk(path)
for path, dir_lst, file_lst in paths:
    for fileName in file_lst:
        fileNames.append(os.path.join(path,fileName))

#将一个txt中所有图片
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值