目标网站
如题,实现头像的爬取,我们先找我们需要爬取的网站:图片_朋友圈背景图_好看的图片_我要个性网 (woyaogexing.com)
我们再简单了解一下,爬虫,在我学习到目前浅浅的理解是,让爬虫去做我们每个人都能自己都可以做的事。例如,这个网站的头像我们可以一张一张的下载,但是我们学了爬虫之后,我们可以直接十几页,几十页的下载,效率直线上升。
安装库函数
然后我们简单说一下,用到的库函数:
1、requests
在命令行使用pip安装命令:pip install request
在py文件里导入:import requests
2、re()
在命令行使用pip安装命令:pip install re
在py文件里导入:import re
3.os(这个是自带的,不用下载,这个主要用来,对文件夹进行操作)
代码段
话不多说,上代码
import requests
import re
import os
#需求爬取https://www.woyaogexing.com/tupian/ 爬取男生头像
if __name__ == '__main__':
#创建一个存放图片的文件夹
if not os.path.exists('./爬取头像(男)'):
os.mkdir('./爬取头像(男)')
url = 'https://www.woyaogexing.com/touxiang/nan/'
headers = {
'User-Agent': 'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 99.0.4844.82Safari / 537.36'
}
for i in range(1,6):
if i==1:
new_url = url
else:
new_url = url +'index_' + str(i)+'.html'
#一整张页面url全部爬取
page_text = requests.get(url=new_url,headers=headers).text
#聚焦爬虫将页面图片进行解析
ex = '.*?<img class="lazy" src="(.*?)" width="180" height="180" />.*?'
img_src_list = re.findall(ex,page_text,re.S)
#遍历每个图片
for src in img_src_list:
src = 'https:' + src
#获取图片
img_data = requests.get(url=src,headers=headers).content
#生成图片名称
img_name = src.split('/')[-1]
#图片存储路径
img_path = './爬取头像(男)/'+img_name
with open(img_path,'wb') as fp:
fp.write(img_data)
print(img_name,'下载成功!!!')
运行过程
得到了,我们想要的头像图片,看到这里快去试试吧!
创作不易,点个赞再走吧!!!