简单爬虫爬取头像,妈妈再也不用担心我头像不够用了

目标网站

如题,实现头像的爬取,我们先找我们需要爬取的网站:图片_朋友圈背景图_好看的图片_我要个性网 (woyaogexing.com)

我们再简单了解一下,爬虫,在我学习到目前浅浅的理解是,让爬虫去做我们每个人都能自己都可以做的事。例如,这个网站的头像我们可以一张一张的下载,但是我们学了爬虫之后,我们可以直接十几页,几十页的下载,效率直线上升。

安装库函数

然后我们简单说一下,用到的库函数:

1、requests
在命令行使用pip安装命令:pip install request
在py文件里导入:import requests

2、re()
在命令行使用pip安装命令:pip install re
在py文件里导入:import re

3.os(这个是自带的,不用下载,这个主要用来,对文件夹进行操作)

代码段

话不多说,上代码

import requests
import re
import os
#需求爬取https://www.woyaogexing.com/tupian/ 爬取男生头像

if __name__ == '__main__':
    #创建一个存放图片的文件夹
    if not os.path.exists('./爬取头像(男)'):
        os.mkdir('./爬取头像(男)')

    url = 'https://www.woyaogexing.com/touxiang/nan/'
    headers = {
        'User-Agent': 'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 99.0.4844.82Safari / 537.36'
    }
    for i in range(1,6):
        if i==1:
            new_url = url
        else:
            new_url = url +'index_' + str(i)+'.html'
        #一整张页面url全部爬取
        page_text = requests.get(url=new_url,headers=headers).text
        #聚焦爬虫将页面图片进行解析
        ex = '.*?<img class="lazy" src="(.*?)" width="180" height="180" />.*?'
        img_src_list = re.findall(ex,page_text,re.S)

        #遍历每个图片
        for src in img_src_list:
            src = 'https:' + src
            #获取图片
            img_data = requests.get(url=src,headers=headers).content
            #生成图片名称
            img_name = src.split('/')[-1]
            #图片存储路径
            img_path = './爬取头像(男)/'+img_name
            with open(img_path,'wb') as fp:
                fp.write(img_data)
                print(img_name,'下载成功!!!')

运行过程

 

得到了,我们想要的头像图片,看到这里快去试试吧! 

创作不易,点个赞再走吧!!!

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值