好久没有写文章了,因为最近都在适应新的岗位,以及利用闲暇时间学习python。这篇文章是最近的一个python学习阶段性总结,开发了一个爬虫批量下载某壁纸网站的高清壁纸。
注意:本文所属项目仅用于python学习,严禁作为其他用途使用!
初始化项目
项目使用了 virtualenv 来创建一个虚拟环境,避免污染全局。使用 pip3 直接下载即可:
pip3 install virtualenv复制代码
然后在合适的地方新建一个 wallpaper-downloader 目录,使用 virtualenv 创建名为 venv 的虚拟环境:
virtualenv venv. venv/bin/activate复制代码
接下来创建依赖目录:
echo bs4 lxml requests > requirements.txt复制代码
最后yun下载安装依赖即可:
pip3 install -r requirements.txt复制代码
分析爬虫工作步骤
为了简单起见,我们直接进入分类为“aero”的壁纸列表页: wallpaperswide.com/aero-deskto…
可以看到,这一页里面一共有10张可供下载的壁纸。但是由于这里显示的都是缩略图,作为壁纸来说清晰度是远远不够的,所以我们需要进入壁纸详情页,去找到高清的下载链接。从第一张壁纸点进去,可以看到一个新的页面:
进群:960410445 即可获取数十套PDF!
因为我机器是Retina屏幕,所以我打算直接下载体积最大的那个以保证高清(红圈所示体积)。
了解了具体的步骤以后,就是通过开发者工具找到对应的dom节点,提取相应的url即可,这个过程就不再展开了&