本文通过对爬虫进行对网页的抓取,并且下载所需要的壁纸图片
前言
通过爬虫技术对图片进行批量爬取可以说是我们必备的爬虫技巧之一,网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。
这里先对要运用的第三方库进行安装。
本文选取的函数库主要为requests、lxml、etree。
打开anaconda prompt,这是anaconda的交互界面,很多指令在该界面直接输入,便可直接下载众多函数库。
anaconda下载安装教程
在交互界面中分别输入如下指令:
conda install lxml
conda install requests
提示:以下是本篇文章正文内容,下面案例可供参考
一、目标网页
在你爬取网页图片前,首先应当找到你的目标图片的网页,本文选取的网页为如下:
https://www.vcg.com/creative-image/xigua/
二、操作流程
1.引入库
代码如下(示例):
import os
import requests
from lxml import etree
2.隐藏爬虫身份
如今很多网站设置了反爬系统,我们对爬虫身份进行隐藏,将其隐藏为正常的用户访问,具体操作如下:
首先,我们随意打开一个网站,右键点击检查:
打开后,点击网络,并且ctrl+r刷新:
刷新后随机点一个名称从标头往下翻,一般可以在请求标头上找到User-Agent并且复制(没有就换个名称接着找):
随后在代码中添加如下:
#输入网站的地址
url = https://pic.netbian.com/4kdongman/
#隐藏爬虫身份
header = {
'User_Agent':'粘贴复制的user-agent'
}
3.获取目标地址
在元素这一栏中找到(在页面中选择一个元素进行检查)这个图标,选择你想要爬取的照片,会自动帮你定位