python3.6 涂鸦王国-图片-爬虫笔记

这篇博客主要介绍了如何使用Python3.6进行图片爬虫,特别是在涂鸦王国网站上。作者指出,通过修改URL中的'page=x'可以遍历所有图片目录。关键在于识别不同类型的图片链接,并利用XPath获取每个缩略图的链接。对于新旧网页的图片链接差异,需要编写特定代码来构造下载链接。最后,作者计划编写一个主程序并补充必要的导入和请求头。
摘要由CSDN通过智能技术生成

在这里插入图片描述
打开第一个链接,查看详细信息
在这里插入图片描述

关键点在于
前一个.jpg是原图,可以通过操作字符串的方式改写得到原链接

更早时候发布的图片,链接方式不一样
在这里插入图片描述
这里写一个判断获取的src是否为空就可以区分

关键问题解决,整理下思路
1.https://www.gracg.com/p599367964217379?page=1
改变“page=x”可以得到所有的图片的目录列表------format可以操作
2.xpath得到每个缩略图所指向的图片单独链接

def get_infos(url):
    res=requests.get(url,headers=headers)
    selector=etree.HTML(res.text)

    pic_urls=selector.xpath('//div[@class="imgbox"]/a/@href
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值