beautilfulsoup4 爬取图片

本文详细介绍了如何利用Python的BeautifulSoup4库解析HTML,精准定位并下载网页中的图片资源,包括设置请求头、处理反爬策略以及图片保存步骤。
摘要由CSDN通过智能技术生成
import scrapy
from bs4 import BeautifulSoup
from urllib.parse import urlparse
import requests
import filetype
import os
import time
import re

class Spider:
    def __init__(self):
        # 定义列表,存放 已经存在的 文件名
        self.f_lis = []
        # 定义图片保存目录为 当前工作目录下的 img 文件夹
        self.img_dir = os.path.join(os.getcwd(),'image')
        # 如果 没有 img 文件夹 就创建
        if not os.path.exists(self.img_dir):
            os.mkdir(self.img_dir)
        # 遍历目录,存放已经存在的文件
        for root, dirs, files in os.walk("image", topdown=False):
            for name in files:
                self.f_lis.append(name)

    def requ_html(self,start_urls):
        # 使用request 发送请求 访问 url 连接
        cookie = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36"}
        respon = requests.get(start_urls,cookies=cookie)
        # 引用 parser 方法
        self.parse(r
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值