斗图网的图片抓取

最新推荐文章于 2020-12-02 20:47:26 发布

是大嘟嘟呀

最新推荐文章于 2020-12-02 20:47:26 发布

阅读量1.6k

点赞数

CC 4.0 BY-SA版权

分类专栏：网络爬虫

本文链接：https://blog.csdn.net/MarkAdc/article/details/89959986

网络爬虫专栏收录该内容

32 篇文章

订阅专栏

该博客围绕斗网网的图片抓取展开，但具体内容缺失。推测可能涉及图片抓取的方法、工具等信息技术相关内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import requests, re, multiprocessing


def main(url):
    response = requests.get(url)
    html = response.text
    imgs_name = re.findall('alt="(.*?)"', html, re.S)	# 获取到每张图片的名称
    imgs_url = re.findall('data-original="(.*?)"', html, re.S)  # 获取到每张图片的url地址
    for img_name, img_url in zip(imgs_name, imgs_url):
        print('正在抓取: ' + img_url)
        response = requests.get(img_url)
        with open(r'E:\demo' + '\\' + img_name + '.jpg', 'wb') as f:
            f.write(response.content)
        print('success')


if __name__ == '__main__':
    url = 'http://www.doutula.com/photo/list/?page='
    pool = multiprocessing.Pool(4)    # 使用四个进程
    pool.map(main, [url + str(i) for i in range(1, 30)])  	# 1-29页的图片