【python基础】python爬虫对网页壁纸图片批量抓取下载

本文通过对爬虫进行对网页的抓取,并且下载所需要的壁纸图片


前言

通过爬虫技术对图片进行批量爬取可以说是我们必备的爬虫技巧之一,网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。

这里先对要运用的第三方库进行安装。

本文选取的函数库主要为requests、lxml、etree。
打开anaconda prompt,这是anaconda的交互界面,很多指令在该界面直接输入,便可直接下载众多函数库。
anaconda下载安装教程
在交互界面中分别输入如下指令:

conda install lxml
conda install requests

提示:以下是本篇文章正文内容,下面案例可供参考

一、目标网页

在你爬取网页图片前,首先应当找到你的目标图片的网页,本文选取的网页为如下:
https://www.vcg.com/creative-image/xigua/

二、操作流程

1.引入库

代码如下(示例):

import os
import requests
from lxml import etree

2.隐藏爬虫身份

如今很多网站设置了反爬系统,我们对爬虫身份进行隐藏,将其隐藏为正常的用户访问,具体操作如下:

首先,我们随意打开一个网站,右键点击检查:

在这里插入图片描述

打开后,点击网络,并且ctrl+r刷新:

在这里插入图片描述

刷新后随机点一个名称从标头往下翻,一般可以在请求标头上找到User-Agent并且复制(没有就换个名称接着找):

在这里插入图片描述

随后在代码中添加如下:

#输入网站的地址
url = https://pic.netbian.com/4kdongman/
#隐藏爬虫身份
header = {
   
        'User_Agent':'粘贴复制的user-agent'
    }

3.获取目标地址

在元素这一栏中找到(在页面中选择一个元素进行检查)这个图标,选择你想要爬取的照片,会自动帮你定位

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

夜未涣

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值