Python爬虫之NET#6

最新推荐文章于 2023-10-15 17:42:12 发布

钱庄副部长

最新推荐文章于 2023-10-15 17:42:12 发布

阅读量445

点赞数

文章标签： python json selenium xpath url

本文链接：https://blog.csdn.net/HSX501560987/article/details/108660043

版权

确定目标

先上今日目标网站：https://ss.netnr.com/wallpaper#6，顺便贴张图，自行理解。

爬虫过程

思维固化，以前爬虫，总是Ctrl + Shift + i 然后 Ctrl + Shift + c，直接在页面中选择一个元素进行检查，

想着挺简单的，谁知到后面一直显示找不到，一度让我怀疑自己Xpath路径找错，然后等我查看网站源代码，

简单的一批，根本就没有图片链接，我才料到这网站为了防止爬虫大量下载图片，隐藏了真正储存图片链接的域名。~~哎，道行太浅啊~~ ，于是，我就打开network，向下滑，获得了一个XHR请求，

复制了一下响应对象，看到是字典型，于是我就直接

img_list = page_text('data')

得到结果为

string indices must be integers

百度了一下好像是json格式导致

第一个我想到直接

page_text = requests.get(url=url, headers=headers).json //基础知识也忘了，ε=(´ο｀*)))唉

然后通过百度得知json()，就是下面才是对的

page_text = requests.get(url=url, headers=headers).json()

顺便再复习一下三者关系：

response.text : 返回一个字符串n
content : 返回二进制n
json() : 返回对象

爬虫源码

import requests
import xdlj //没错，就是相对路径，VScode特色，ennnnn

if __name__ == "__main__":
    url = 'https://bird.ioliu.cn/v2?url=http%3A%2F%2Fwallpaper.apc.360.cn%2Findex.php%3Fc%3DWallPaper%26start%3D1%26count%3D12%26from%3D360chrome%26a%3DgetAppsByCategory%26cid%3D6'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'
    }
    page_text = requests.get(url=url, headers=headers).json()
    img_list = page_text['data']
    for img in img_list:
        img_url = img['url']
        img_name = img['utag']
        img_data = requests.get(url=img_url, headers=headers).content
        img_Path = '爬图/' + img_name + '.jpg'
        with open(img_Path, 'wb') as fp:
            fp.write(img_data)
            print(img_name + '保存成功！！！')

爬虫成果

顺便贴几张爬取的自我感觉还阔以的

钱庄副部长

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫之NET#6

确定目标先上今日目标网站：https://ss.netnr.com/wallpaper#6，顺便贴张图，自行理解。爬虫过程思维固化，以前爬虫，总是Ctrl + Shift + i 然后 Ctrl + Shift + c，直接在页面中选择一个元素进行检查，想着挺简单的，谁知到后面一直显示找不到，一度让我怀疑自己Xpath路径找错，然后等我查看网站源代码，简单的一批，根本就没有图片链接，我...
复制链接

扫一扫