爬取网站所有图片

最新推荐文章于 2023-10-22 12:00:00 发布

leijianghong1987

最新推荐文章于 2023-10-22 12:00:00 发布

阅读量765

点赞数 1

分类专栏：爬虫图片文章标签： python

本文链接：https://blog.csdn.net/leijianghong1987/article/details/106483052

版权

爬虫同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

图片

1 篇文章 0 订阅

订阅专栏

主要功能：
1.爬取图片
2.保存到本地

源代码：

from http.client import IncompleteRead
import requests
import re
import urllib.request
import time
new_data = requests.get("https://www.***.com/g/xingxiu", verify=False).text
qq = re.findall("https://[a-zA-Z\.\/_0-9]{1,100}jpg", new_data)
old_file_name = "c:/gg"
i = 0
for url in qq:
    if url:
        img_net = urllib.request.urlopen(url)
        try:
            content_i = img_net.read()
        except IncompleteRead as e:
            buffers = e.partial
        time.sleep(2)
        print(url)
        with open(old_file_name + "/" + str(i) + '.jpg', 'wb') as f:
            time.sleep(2)
            if content_i:
                f.write(content_i)
            else:
                f.write(buffers)
        if i>len(qq):
            break
        i += 1