beautilfulsoup4 爬取图片

最新推荐文章于 2023-09-12 07:49:49 发布

Jianguu_

最新推荐文章于 2023-09-12 07:49:49 发布

阅读量374

点赞数

文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_35948609/article/details/122352492

版权

本文详细介绍了如何利用Python的BeautifulSoup4库解析HTML，精准定位并下载网页中的图片资源，包括设置请求头、处理反爬策略以及图片保存步骤。

摘要由CSDN通过智能技术生成

import scrapy
from bs4 import BeautifulSoup
from urllib.parse import urlparse
import requests
import filetype
import os
import time
import re

class Spider:
    def __init__(self):
        # 定义列表，存放 已经存在的 文件名
        self.f_lis = []
        # 定义图片保存目录为 当前工作目录下的 img 文件夹
        self.img_dir = os.path.join(os.getcwd(),'image')
        # 如果 没有 img 文件夹 就创建
        if not os.path.exists(self.img_dir):
            os.mkdir(self.img_dir)
        # 遍历目录，存放已经存在的文件
        for root, dirs, files in os.walk("image", topdown=False):
            for name in files:
                self.f_lis.append(name)

    def requ_html(self,start_urls):
        # 使用request 发送请求 访问 url 连接
        cookie = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36"}
        respon = requests.get(start_urls,cookies=cookie)
        # 引用 parser 方法
        self.parse(r