Python网络爬虫实战：通过requests+bs4爬取并保存图片

最新推荐文章于 2024-06-04 17:51:25 发布

Qlly

最新推荐文章于 2024-06-04 17:51:25 发布

阅读量2.5k

点赞数 1

分类专栏： Python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_29750277/article/details/78409521

版权

Python 专栏收录该内容

11 篇文章 1 订阅

订阅专栏

Python爬虫实战基础篇——图片爬取

Python版本：3.5.4

涉及内容都是网络爬虫基础：requests和bs4库的应用、正则表达式等

import requests
import os
from bs4 import BeautifulSoup
import re

def GetHtml(url):#获取soup
    try:
        r = requests.get(url)
        demo = r.text
        soup = BeautifulSoup(demo, "html.parser")
        return soup
    except:
        return ""

def GetPic(url):#下载某一页的图片
    try:
        pic = requests.get(url)
        path = "爬取图片/图片page"+str(page)+".jpg"
        # 保存非文本类的图片、文件都可以用这个模板
        with open(path, 'wb') as f:
            f.write(pic.content)
        # 
            print("图片page"+str(page)+"爬取成功")
    except:
        print("page"+str(page)+"爬取失败")
 
# 获取页数
soup = GetHtml("http://www.zbjuran.com/mei/xinggan/201708/85005.html")
for x in soup.find(attrs = 'page').strings:
    pagestring = x
    break
pageend = re.sub("\D","",pagestring)

# 翻页爬取
page = 1
while page <= int(pageend):#不断访问网页的循环
    if page==1:
        url="http://www.zbjuran.com/mei/xinggan/201708/85005.html"
    else:
        url = "http://www.zbjuran.com/mei/xinggan/201708/85005_"+str(page)+".html"
    soup = GetHtml(url)
    img_src = soup.find('img').get('src')
    GetPic(img_src)
    page += 1

Qlly

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
Python网络爬虫实战：通过requests+bs4爬取并保存图片

Python爬虫实战基础篇——图片爬取Python版本：3.5.4涉及内容都是网络爬虫基础：requests和bs4库的应用、正则表达式等import requestsimport osfrom bs4 import BeautifulSoupimport redef GetHtml(url):#获取soup try: r = requests.ge...
复制链接

扫一扫

专栏目录