Python爬虫骚操作:2. 爬取亿图高清壁纸,并下载到本地

1. 目标

爬取亿图壁纸,批量下载图片,并保存到本地。

2. 项目准备

软件:Pycharm
第三方库:requests,fake_useragent,lxml
网站地址:https://www.yeitu.com/dongman/dongmantupian/

3. 网站分析

打开网站看一下。
在这里插入图片描述

F12检查,审查元素。
在这里插入图片描述

可以获取到该图片的URL地址,尝试打开看一下。
在这里插入图片描述

可以看到这是一张分辨率很低的图片,并不是我们要图片。
因此我们只有先进入内页进行抓取图片。
在这里插入图片描述
先获取红色框地址链接,进入内页。
在这里插入图片描述

高清图片再也藏不住了。
继续审查元素
在这里插入图片描述

可以找到高清图片地址。以上只是获取一个,若是获取全部只要在首页中拿到全部小图地址链接进入内页解析即可全部获取,不再赘述。至于多页爬取,请继续浏览。

分析完毕,接下来代码操作。

4. 反爬分析

同一个ip地址去多次访问会面临被封掉的风险,这里采用fake_useragent,产生随机的User-Agent请求头进行访问。

5. 基础代码实现

import requests
from fake_useragent import UserAgent
from lxml import etree
class yeitu():
    def __init__(self):
        self.url = 'https://www.yeitu.com/dongman/dongmantupian/'
        ua = UserAgent()
        for i in range(1, 100):
            self.headers = {
   
                'User-Agent': ua.random
            }
    def main(self):
       pass
if __name__ == '__main__':
    spider = yeitu()
    spider.main()

发送请求,获取网页。

def get_html(self, url):
	response = requests.get(url, headers=self.headers)
	html = response.content
  • 10
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值