爬虫学习——爬取网站图片并保存到本地

最新推荐文章于 2024-09-12 18:31:52 发布

Alexa2077

最新推荐文章于 2024-09-12 18:31:52 发布

阅读量3.9k

点赞数 7

分类专栏： python爬虫文章标签： Python爬虫图片爬取正则表达式文件保存网页解析

本文链接：https://blog.csdn.net/Alexa_/article/details/112978085

版权

python爬虫专栏收录该内容

0 篇文章 0 订阅

订阅专栏

爬虫学习——爬取网站图片并保存到本地

爬取步骤：
1，模拟浏览器发出请求
2，解析网页
3，路径下创建文件夹并保存图片

第一步——发出请求

# 目标网站
url = 'https://www.vmgirls.com/15444.html'
# 头部伪装
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:84.0) Gecko/ Firefox/84.0'}
# 发出请求
f = requests.get(url,headers=headers)      # 从网页获取html内容
#print(f.text)       # 打印网页返回数据
print(f)

根绝print(f)中的返回值来判定是否爬取成功，为200时表示网页有相应，爬取成功，为403或者其他则表示不成功，可能时网站具有反爬机制。

第二步——解析网页

html = f.text
dir_name = re.findall('<h1 class="post-title h1">(.*?)</h1>',html)[-1] # 文件夹名字
urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html)  # 图片网址
print(dir_name)     
print(urls)

在这里使用的是正则表达式，首先需要先找到图片的网址，检索网页，然后进行匹配找到相应的区域段，而后将需要的部分改成（.？），不需要的部分改成 .? 不加括号。如程序中的re.findall()中所示。
如果在print(urls)时，出现的结果为 [] ,则表示未能匹配到内容，一般而言是正则出现了问题。

第三步——保存图片

在当前目录下创建文件夹，使用 os.mkdir() 函数

if not os.path.exists(dir_name):     # 创建文件夹
    os.mkdir(dir_name)

实现逐个保存功能

for ur in urls:
    time.sleep(1)
    file_name = ur.split('/')[-1]
    ur = 'http:' + ur    #  构成网址格式
    f = requests.get(ur,headers=headers)  
    with open(dir_name + '/' + file_name,'wb') as h:
        h.write(f.content)

建议加上time.sleep()函数，如果访问过于频繁可能会被识别出。此处使用 ‘wb ’的二进制形式写入。

代码

import requests   # 模拟浏览器发出请求
import re     #正则匹配
import time
import os    # 操作系统

# 目标网站
url = 'https://www.vmgirls.com/15444.html'
# 头部伪装
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:84.0) Gecko/20100101 Firefox/84.0'}
# 发出请求
f = requests.get(url,headers=headers)      # 从网页获取html内容
#print(f.text)       # 打印网页返回数据
print(f)
html = f.text
dir_name = re.findall('<h1 class="post-title h1">(.*?)</h1>',html)[-1]
if not os.path.exists(dir_name):     # 创建文件夹
    os.mkdir(dir_name)
# 图片网址
urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html)
print(dir_name)
print(urls)

for ur in urls:
    time.sleep(1)
    file_name = ur.split('/')[-1]
    ur = 'http:' + ur
    f = requests.get(ur,headers=headers)
    with open(dir_name + '/' + file_name,'wb') as h:
        h.write(f.content)

print("over")