import scrapy
from bs4 import BeautifulSoup
from urllib.parse import urlparse
import requests
import filetype
import os
import time
import re
class Spider:
def __init__(self):
# 定义列表,存放 已经存在的 文件名
self.f_lis = []
# 定义图片保存目录为 当前工作目录下的 img 文件夹
self.img_dir = os.path.join(os.getcwd(),'image')
# 如果 没有 img 文件夹 就创建
if not os.path.exists(self.img_dir):
os.mkdir(self.img_dir)
# 遍历目录,存放已经存在的文件
for root, dirs, files in os.walk("image", topdown=False):
for name in files:
self.f_lis.append(name)
def requ_html(self,start_urls):
# 使用request 发送请求 访问 url 连接
cookie = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36"}
respon = requests.get(start_urls,cookies=cookie)
# 引用 parser 方法
self.parse(r
beautilfulsoup4 爬取图片
最新推荐文章于 2023-09-12 07:49:49 发布
本文详细介绍了如何利用Python的BeautifulSoup4库解析HTML,精准定位并下载网页中的图片资源,包括设置请求头、处理反爬策略以及图片保存步骤。
摘要由CSDN通过智能技术生成