爬取网页列表内容对应的网址并存到txt里，根据txt里的路径下载对应网页里面的图片

最新推荐文章于 2023-10-27 09:30:00 发布

慧儿1314

最新推荐文章于 2023-10-27 09:30:00 发布

阅读量538

点赞数

分类专栏：工作中遇到的问题文章标签： python 网络爬虫

本文链接：https://blog.csdn.net/myself_520/article/details/124280555

版权

该博客介绍了如何使用Python的requests和BeautifulSoup库从网页列表中抓取文章链接，并根据这些链接下载对应网页内的所有图片。首先，通过遍历网址列表并解析HTML，获取文章的链接并保存到txt文件。然后，读取txt文件中的链接，对每个链接进行请求，获取HTML内容，查找并下载所有img标签的图片资源，保存到本地的pictures文件夹，文件名包含链接的相关信息。

摘要由CSDN通过智能技术生成

import requests        #导入requests包
from bs4 import BeautifulSoup
import os

images = []
# data_list = {}
texts = ""
for i in range(1,250):

    url = 网址+str(i)+'/'
    print(url)
    requests.adapters.DEFAULT_RETRIES = 5  # 增加重连次数
    s = requests.session()
    s.keep_alive = False  # 关闭多余连接
    strhtml = s.get(url)  # Get方式获取网页数据

    soup=BeautifulSoup(strhtml.text,'html.parser')
    datas = soup.find_all("a",class_ = "entry-title-link")
    for data in  datas:
        # title_link = data.find(class_="").get("herf")
        # print(data["href"])
        print(data["href"])
        texts = texts + os.linesep + data["href"]


f = open('title_link.txt', 'w+')
# os.linesep代表当前操作系统上的换行符
f.write(texts)
f.close()

import requests
from bs4 import BeautifulSoup



f = open('title_link.txt'

最低0.47元/天解锁文章

慧儿1314

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
爬取网页列表内容对应的网址并存到txt里，根据txt里的路径下载对应网页里面的图片

import requests #导入requests包from bs4 import BeautifulSoupimport osimages = []# data_list = {}texts = ""for i in range(1,250): url = 网址+str(i)+'/' print(url) requests.adapters.DEFAULT_RETRIES = 5 # 增加重连次数 s = requests.sessio.
复制链接

扫一扫