python爬取图片(thumbURL和html文件标签分别爬取)

  当查看源代码,发现网址在thumbURL之后时,用此代码:

# 当查看源代码,发现网址在thumbURL之后时,用此代码:

import requests

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:121.0) Gecko/20100101 Firefox/121.0',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8',
    'Accept-Encoding':'gzip, deflate, br',
    'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2'
}

url = input("请输入你想保存的图片的网址:")
response = requests.get(url, headers = headers)
print(response)
print(response.status_code)

file = input("请输入你想图片保存在的文件夹名称:")

import os
os.makedirs(f'./{file}', exist_ok = True)
# 新建目录,用于存储图片
# def makedirs(name, mode=0o777, exist_ok=False):
# 参数说明:
#     name:用于指定要创建目录的路径。
#     mode:指定目录的模式,默认模式为八进制的 777。类似于 chmod() 方法。
#     exist_ok:可选参数,如果值为 False,当要创建的目录已经存在时,抛出 FileExistsError 异常;如果值为True,
#         当要创建的目录已经存在时,不会抛出异常。默认值为 False。

import re
html = response.text
image_url_list = re.findall('"thumbURL":"(.*?)",', html, re.S)
# 用于查找得到thumbURL后面的图片网址,目前还不会正则表达式

# print(image_url_list)
q = 0
for url in image_url_list:
   # print(url)
    res=requests.get(url)
    picture=res.content
    q+=1
    with open(f'{file}\\{q}.jpg',mode='wb') as f:
        f.write(picture)
    # 在小猫文件夹下保存图片,以q为图片文件名
    

 

#  当用requests.get请求得到的源代码是html文件,每一行是一个标签时,可以用此代码

# 当用requests.get请求得到的源代码是html文件,每一行是一个标签时,可以用此代码
import requests
from bs4 import BeautifulSoup

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:121.0) Gecko/20100101 Firefox/121.0',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8',
    'Accept-Encoding':'gzip, deflate, br',
    'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2'
}

url = input("请输入你想保存的图片的网址:")
response = requests.get(url, headers = headers)
print(response)
print(response.status_code)

file = input("请输入你想图片保存在的文件夹名称:")
# response=requests.get('https://www.umei.cc/meinvtupian/')
response.encoding='utf-8'
# print(response.text)
soup=BeautifulSoup(response.text,'html.parser')
# print(soup)
  
import os
os.makedirs(f'./图片/{file}', exist_ok=True)

lis = soup.find_all('div',class_="taotu-main")
# print(a)
print("*********")

q=0

t = 0
for l in lis:
    if(t == 0):
        print(l)
    t += 1
    p=l.find_all('img')
    for i in p:
        pic=i.get('data-original')
        print(pic)
        res=requests.get(pic)
        picture=res.content
        q+=1
        with open(f'图片/{file}\\{q}.jpg',mode='wb') as f:
            f.write(picture)

  • 8
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是Python多线程爬取百度图片的示例代码: ```python import requests import os import re from queue import Queue from threading import Thread class BaiduImageSpider: def __init__(self, keyword, save_path): self.keyword = keyword self.save_path = save_path self.img_urls = Queue() # 图片链接队列 self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} self.page_url = 'https://image.baidu.com/search/index?tn=baiduimage&word={}&pn={}&ie=utf-8' def download_img(self): while True: img_url = self.img_urls.get() try: img_data = requests.get(img_url, headers=self.headers, timeout=10).content except Exception as e: print('下载图片出错:', e) else: file_name = os.path.join(self.save_path, re.split('[/.]', img_url)[-2] + '.jpg') with open(file_name, 'wb') as f: f.write(img_data) print('下载图片:', file_name) finally: self.img_urls.task_done() # 标记任务完成 def get_img_urls(self, page_num): try: page_url = self.page_url.format(self.keyword, page_num * 30) html = requests.get(page_url, headers=self.headers, timeout=10).text except Exception as e: print('获取图片链接出错:', e) return [] else: img_urls = re.findall('"thumbURL":"(.*?)"', html) return img_urls def start(self, thread_num=10, page_num=10): if not os.path.exists(self.save_path): os.makedirs(self.save_path) # 创建多个线程用于下载图片 for i in range(thread_num): t = Thread(target=self.download_img) t.daemon = True # 设置为守护线程 t.start() # 获取图片链接并加入队列 for i in range(page_num): img_urls = self.get_img_urls(i) for img_url in img_urls: self.img_urls.put(img_url) # 等待队列中的任务完成 self.img_urls.join() if __name__ == '__main__': spider = BaiduImageSpider('猫', 'images') spider.start(thread_num=10, page_num=10) ``` 上述代码中,`BaiduImageSpider` 类用于爬取百度图片,其中 `download_img()` 方法用于下载图片,`get_img_urls()` 方法用于获取图片链接,`start()` 方法用于启动多线程下载图片。在 `start()` 方法中,首先创建多个线程用于下载图片,然后获取图片链接并加入队列,最后等待队列中的任务完成。其中,`Queue` 类用于实现线程间的通信,`Thread` 类用于创建线程。在 `download_img()` 方法中,使用 `requests` 库下载图片,并将图片保存到指定路径,使用队列的 `task_done()` 方法标记任务完成。在 `get_img_urls()` 方法中,使用 `requests` 库获取页面内容,并使用正则表达式获取图片链接。在 `start()` 方法中,使用 `os` 库创建保存图片的目录,使用参数 `thread_num` 和 `page_num` 分别设置线程数和下载页数。最后,通过调用 `start()` 方法启动多线程下载图片。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值