一图带你了解爬虫简单爬虫，爬取各种图片，CNN的天堂，附带代码

最新推荐文章于 2024-05-13 13:56:11 发布

Cchaofan

最新推荐文章于 2024-05-13 13:56:11 发布

阅读量2k

点赞数 2

分类专栏：爬虫文章标签：爬虫 cnn python

本文链接：https://blog.csdn.net/Cchaofan/article/details/122120717

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

什么是爬虫？

爬虫的结构：

为什要爬虫？

在现在社会当中，模型基本上都可以从一些途径下载得到（例如：码云，github等等），但是有了模型没有数据怎么办呢？这时候就需要有大量的数据，模型一般可以下载，但是数据可能是不能让你也下载，这就会涉及一些隐私了。

今天分享一个爬图片的代码，好多都是爬数据的，今天咱们来爬图片，可以无限制的获取各种图片。这也是看别人的帖子，总结的一些东西。

爬照片的时候可以先去网站上大概看一下，方便后面的需求。

这是爬取的照片：

下面是代码：

import urllib.parse
import json
import requests
import jsonpath



url = 'https://www.duitang.com/napi/blog/list/by_search/?kw={}&start={}' #网址
label = '分类标签'
label = urllib.parse.quote(label)


num = 0
for index in range(0,2400,24):
    u = url.format(label,index)
    we_data = requests.get(u).text

    html = json.loads(we_data)
    photo = jsonpath.jsonpath(html,"$..path")

    for i in photo:
            a = requests.get(i)
            with open(r'D:\pcphoto\{}.jpg'.format(num),'wb') as f: #保存图片的路径
                f.write(a.content) # 二进制
            num += 1