简单的十几行代码爬取某库ppt格式的内容

SoftwarePM

于 2020-10-20 16:05:38 发布

阅读量840

点赞数 2

文章标签： python 数据挖掘

本文链接：https://blog.csdn.net/SoftwarePM/article/details/109182413

版权

本文介绍如何使用Python简单爬取某库中PPT格式的学习资料，通过查看页面源代码获取每个图片链接，进而下载内容。适用于为孩子寻找学习资料的家长。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简单的十几行代码下载某库ppt格式的内容

拒绝转载，拒绝商用，拒绝非法爬取
仅供压力巨大的中年人给孩子们找找学习资料

准备工作：
1，打开某库搜索到需要的内容，请选择PPT格式
在这里插入图片描述

2，进入内容页面F12检查源代码可以看到有每个图片的链接，也是每页的链接
在这里插入图片描述

3，可以用xpath或者re获取所需要的链接，或者直接copy在txt中，我选择笨方法保存到本地的txt中

4，然后就可以获取每个链接的图片了（成功后如下）
在这里插入图片描述

完整的代码如下：

```python
import re, time, os, requests
session = requests.session()

url_list = []
file = open('New Text Document.txt')  #获取txt中的每个图片url
for i in file.re

最低0.47元/天解锁文章