一图带你了解爬虫 简单爬虫,爬取各种图片,CNN的天堂,附带代码

什么是爬虫?

爬虫的结构:

为什要爬虫?

        在现在社会当中,模型基本上都可以从一些途径下载得到(例如:码云,github等等),但是有了模型没有数据怎么办呢?这时候就需要有大量的数据,模型一般可以下载,但是数据可能是不能让你也下载,这就会涉及一些隐私了。

 今天分享一个爬图片的代码,好多都是爬数据的,今天咱们来爬图片,可以无限制的获取各种图片。这也是看别人的帖子,总结的一些东西。

爬照片的时候可以先去网站上大概看一下,方便后面的需求。

这是爬取的照片:

下面是代码:

import urllib.parse
import json
import requests
import jsonpath



url = 'https://www.duitang.com/napi/blog/list/by_search/?kw={}&start={}' #网址
label = '分类标签'
label = urllib.parse.quote(label)


num = 0
for index in range(0,2400,24):
    u = url.format(label,index)
    we_data = requests.get(u).text

    html = json.loads(we_data)
    photo = jsonpath.jsonpath(html,"$..path")

    for i in photo:
            a = requests.get(i)
            with open(r'D:\pcphoto\{}.jpg'.format(num),'wb') as f: #保存图片的路径
                f.write(a.content) # 二进制
            num += 1

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值