python爬虫批量下载好看的图片

hzz0504

已于 2022-04-18 17:04:54 修改

阅读量450

点赞数 1

文章标签： python list pycharm

于 2022-04-18 16:46:36 首次发布

本文链接：https://blog.csdn.net/hzz0504/article/details/124252495

版权

前言

本次写的爬虫程序是爬取网站上的图片，所用的网站请详见代码。

函数介绍

主要是通过对网站上内容进行解析提取，从而获取到图片所对应的下载链接，从而实现批量下载，其他网站图片爬取方法类似。

库函数介绍

import re#解析接收到的网页源码
import requests#发送网页请求

引入库函数，没有的小伙伴可以进行下载。

下载方法1：windows下>cmd>输入：pip install requests/pip install re

下载方法2：pycharm>setting>project：文档名称

函数1

def http_s(baseurl):
    for i in range(0,30):#爬取第一到第30页，可更改
        url=baseurl+str(i)
        # print(url)
        getphoto(url)#解析函数中传入网址，开始解析爬取图片

解析函数中传入网址，开始解析爬取图片

函数2

def getphoto(url):
    #headers封装
    headers={
        "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.44"
    }
    #网站访问
    response=requests.get(url,headers=headers)
    # print(response.text)
    html_re=response.text
    
    #解析数据
    link=re.compile(r'<img fifu-featured="1" width="520" src="(.*?)"',re.S)
    link_w=re.findall(link,html_re)
    #向图片链接进行访问
    for img in link_w:
        #图片名字
        img_name=img.split('/')[-1]#将网页进行拆分，拿出图片名
        # print(img_name)
        img_data=requests.get(img).content#获取数据
        # print(img_data)
    #保存数据
        with open(f'img/{img_name}',mode='wb') as f:#注意需要手动新建一个img文件夹，不然会出现报错
            f.write(img_data)
        print("正在爬取",img_name)

解析函数，进行网页解析，图片保存。

主函数

#主函数调用
if __import__(__name__):
    main()

完整代码

import re#解析接收到的网页源码
import requests#发送网页请求
def main():
    baseurl = "https://www.kanxiaojiejie.com/page/"
    http_s(baseurl)
#用来生成网站地址
def http_s(baseurl):
    for i in range(0,30):#爬取第一到第30页，可更改
        url=baseurl+str(i)
        # print(url)
        getphoto(url)#解析函数中传入网址，开始解析爬取图片
#解析函数，进行网页解析
def getphoto(url):
    #headers封装
    headers={
        "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.44"
    }
    #网站访问
    response=requests.get(url,headers=headers)
    # print(response.text)
    html_re=response.text

    #解析数据
    link=re.compile(r'<img fifu-featured="1" width="520" src="(.*?)"',re.S)
    link_w=re.findall(link,html_re)
    #向图片链接进行访问
    for img in link_w:
        #图片名字
        img_name=img.split('/')[-1]#将网页进行拆分，拿出图片名
        # print(img_name)
        img_data=requests.get(img).content#获取数据
        # print(img_data)
    #保存数据
        with open(f'img/{img_name}',mode='wb') as f:#注意需要手动新建一个img文件夹，不然会出现报错
            f.write(img_data)
        print("正在爬取",img_name)
#主函数调用
if __import__(__name__):
    main()

函数功能介绍