简单爬虫爬取头像，妈妈再也不用担心我头像不够用了

最新推荐文章于 2023-02-15 20:24:44 发布

白衣纵码

最新推荐文章于 2023-02-15 20:24:44 发布

阅读量1.1k

点赞数 4

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/qq_52119136/article/details/124826832

版权

爬虫专栏收录该内容

1 篇文章

订阅专栏

这篇博客介绍了如何使用Python爬虫从woyaogexing.com网站批量下载男性头像。通过requests库获取网页内容，re正则表达式解析图片链接，os库处理文件操作，实现了高效下载多页头像图片。代码清晰易懂，适合初学者实践。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目标网站

如题，实现头像的爬取，我们先找我们需要爬取的网站：图片_朋友圈背景图_好看的图片_我要个性网 (woyaogexing.com)

我们再简单了解一下，爬虫，在我学习到目前浅浅的理解是，让爬虫去做我们每个人都能自己都可以做的事。例如，这个网站的头像我们可以一张一张的下载，但是我们学了爬虫之后，我们可以直接十几页，几十页的下载，效率直线上升。

安装库函数

然后我们简单说一下，用到的库函数：

1、requests
在命令行使用pip安装命令:pip install request
在py文件里导入:import requests

2、re()
在命令行使用pip安装命令:pip install re
在py文件里导入:import re

3.os(这个是自带的，不用下载，这个主要用来，对文件夹进行操作)

代码段

话不多说，上代码

import requests
import re
import os
#需求爬取https://www.woyaogexing.com/tupian/ 爬取男生头像

if __name__ == '__main__':
    #创建一个存放图片的文件夹
    if not os.path.exists('./爬取头像（男）'):
        os.mkdir('./爬取头像（男）')

    url = 'https://www.woyaogexing.com/touxiang/nan/'
    headers = {
        'User-Agent': 'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 99.0.4844.82Safari / 537.36'
    }
    for i in range(1,6):
        if i==1:
            new_url = url
        else:
            new_url = url +'index_' + str(i)+'.html'
        #一整张页面url全部爬取
        page_text = requests.get(url=new_url,headers=headers).text
        #聚焦爬虫将页面图片进行解析
        ex = '.*?<img class="lazy" src="(.*?)" width="180" height="180" />.*?'
        img_src_list = re.findall(ex,page_text,re.S)

        #遍历每个图片
        for src in img_src_list:
            src = 'https:' + src
            #获取图片
            img_data = requests.get(url=src,headers=headers).content
            #生成图片名称
            img_name = src.split('/')[-1]
            #图片存储路径
            img_path = './爬取头像（男）/'+img_name
            with open(img_path,'wb') as fp:
                fp.write(img_data)
                print(img_name,'下载成功！！！')