Python爬虫骚操作：1. 爬取彼岸高清壁纸，并下载到本地

Ym_Uni

已于 2023-12-07 04:59:55 修改

阅读量1.8k

点赞数 12

分类专栏： python爬虫文章标签： python 爬虫开发语言

于 2023-12-07 04:54:05 首次发布

本文链接：https://blog.csdn.net/Uniai/article/details/134844701

版权

本文介绍了如何使用Python爬虫技术，针对彼岸壁纸网站进行分析，通过设置随机User-Agent避免反爬，实现从多个页面抓取高清壁纸链接，并将图片批量下载到本地。

摘要由CSDN通过智能技术生成

Python爬彼岸高清壁纸，并下载到本地

- 1. 目标
- 2. 项目准备
- 3. 网站分析
- 4. 反爬分析
- 5. 基础代码实现
- 6. 多页抓取分析
- 7. 多页抓取处理
- 8. 批量下载到本地
- 9. 效果显示
- 10. 完整代码

1. 目标

爬取彼岸壁纸，批量下载图片，并保存到本地。

2. 项目准备

软件：Pycharm
第三方库：requests,fake_useragent,lxml
网站地址：http://www.netbian.com/meinv/

3. 网站分析

打开网站看一下。
在这里插入图片描述
F12检查，审查元素。

可以获取到该图片的URL地址，尝试打开看一下。

可以看到这是一张分辨率很低的图片，并不是我们要图片。
因此我们只有先进入内页进行抓取图片。

先获取红色框地址链接，进入内页。
在这里插入图片描述
高清图片再也藏不住了。
继续审查元素

可以找到高清图片地址。以上只是获取一个，若是获取全部只要在首页中拿到全部小图地址链接进入内页解析即可全部获取，不再赘述。至于多页爬取，请继续浏览。

分析完毕，接下来代码操作。

4. 反爬分析

同一个ip地址去多次访问会面临被封掉的风险，这里采用fake_useragent，产生随机的User-Agent请求头进行访问。

5. 基础代码实现

import requests
from fake_useragent import UserAgent
from lxml import etree
class BiAn():
    def __init__(self):
        self.url = 'http://www.netbian.com/meinv/'
        ua = UserAgent()
        for i in range(1, 100):
            self.headers = {
   
                'User-Agent': ua.random
            }
    def main(self):
       pass
if __name__ == '__main__':
    spider = BiAn()
    spider.main()

发送请求,获取网页。

def get_html(self, url):
	response = requests.get(url, headers=self

最低0.47元/天解锁文章

Ym_Uni

关注

12
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录