爬虫爬取wallpaperswide上的高清壁纸

本文介绍了如何使用Python爬虫技术,通过BeautifulSoup和Requests库,从wallpaperswide.com网站上抓取高清壁纸的下载链接。通过分析网页结构,提取图片名称和分辨率,构建下载链接,并实现多进程爬取,提高效率。
摘要由CSDN通过智能技术生成

本文需要用到的库:  BeautifulSoup  Requests  re  os  Pool

这是我第一次写博客,可能布局不够美观,思路讲述不够清晰,请见谅,废话不多说,直接整:

一,分析网页

 

        本次要爬取的网站是:http://wallpaperswide.com/ 首先,打开网页,你会看到如下界面:

界面左边是图片的分类,中间是首页图片,打开浏览器的开发者工具,然后随便选中一个图片(鼠标右键,检查),就比如我选中了第一张图片

可以得到如图的信息,这次我们需要的是其中的href="/shadow_of_the_tomb_raider_2018_puzzle_video_game-wallpapers.html",这个具体有什么用,我稍后再说,接下来,我们继续点击刚才那张图片(注意,当鼠标放到图片上时,图片上会出现一个向下的箭头,我们不要点他,应该点击它旁边的位置)如图:

点击后将进入以下界面:

图片下面那些就是可供选择的分辨率,再次鼠标右键检查,点击一个你想要的分辨率,如图:

我们又得到了一个‘href’,如果你点击它,你就会弹出下载提示,所以,我们要爬取的目标就是这个下载链接,但是如果按照之前的步骤获取链接,个人认为太麻烦,经过我对下载链接的观察,我发现了一些规律:

我们将之前获取的链接 href="/shadow_of_the_tomb_raider_2018_puzzle_video_game-wallpapers.html"与刚才的链接对比

可以发现,他们有相同的部分:shadow_of_the_tomb_raider_2018_puzzle_video_game-wallpapers,所以我大胆猜测这是这张图片的名字(不信的可以照之前的步骤看看其他图片),后面的-1920*1080就是图片的分辨率,因此我们可以得出一个有效下载链接的基本结构:

/download/+'图片名字'+‘-’+‘分辨率’+‘.jpg’,有没有觉得少了点什么?/download前面是不是应该还有东西呢?答案是有的&#x

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值