Python爬虫之NET#6

确定目标

​ 先上今日目标网站:https://ss.netnr.com/wallpaper#6,顺便贴张图,自行理解。

古风  古装  红衣  美女  妖娆

爬虫过程

思维固化,以前爬虫,总是Ctrl + Shift + i 然后 Ctrl + Shift + c, 直接在页面中选择一个元素进行检查,

image-20200909202830951

想着挺简单的,谁知到后面一直显示找不到,一度让我怀疑自己Xpath路径找错,然后等我查看网站源代码,

image-20200909203503228

简单的一批,根本就没有图片链接,我才料到这网站为了防止爬虫大量下载图片,隐藏了真正储存图片链接的域名。哎,道行太浅啊 ,于是,我就打开network,向下滑,获得了一个XHR请求,

image-20200909204015342

复制了一下响应对象,看到是字典型,于是我就直接

img_list = page_text('data')

得到结果为

string indices must be integers

百度了一下好像是json格式导致

第一个我想到直接

page_text = requests.get(url=url, headers=headers).json //基础知识也忘了,ε=(´ο`*)))唉

然后通过百度得知json(),就是下面才是对的

page_text = requests.get(url=url, headers=headers).json()

顺便再复习一下三者关系:

  • response.text : 返回一个字符串n
  • content : 返回二进制n
  • json() : 返回对象

爬虫源码

import requests
import xdlj //没错,就是相对路径,VScode特色,ennnnn

if __name__ == "__main__":
    url = 'https://bird.ioliu.cn/v2?url=http%3A%2F%2Fwallpaper.apc.360.cn%2Findex.php%3Fc%3DWallPaper%26start%3D1%26count%3D12%26from%3D360chrome%26a%3DgetAppsByCategory%26cid%3D6'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'
    }
    page_text = requests.get(url=url, headers=headers).json()
    img_list = page_text['data']
    for img in img_list:
        img_url = img['url']
        img_name = img['utag']
        img_data = requests.get(url=img_url, headers=headers).content
        img_Path = '爬图/' + img_name + '.jpg'
        with open(img_Path, 'wb') as fp:
            fp.write(img_data)
            print(img_name + '保存成功!!!')

爬虫成果

顺便贴几张爬取的自我感觉还阔以的

古风  古装  红衣  美女  妖娆

清纯 水管 清凉 夏天

党妹cosplay  异域风情

古风
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值