【爬虫入门】爬取图片并保存在本地

最新推荐文章于 2024-07-22 17:25:13 发布

adventure.Li

最新推荐文章于 2024-07-22 17:25:13 发布

阅读量3.9k

点赞数 1

分类专栏： # Python理论与实战文章标签： python 正则表达式

本文链接：https://blog.csdn.net/qq_44654974/article/details/108129896

版权

Python理论与实战专栏收录该内容

11 篇文章 0 订阅

订阅专栏

一、分析页面

明确所需爬取的标签 -> 分析正则匹配

大家都知道，图片的标签为< img src="">,所以说根据标签想获取图片的网络URL是很容易的（r’src="(.*?)"’），另外有个可以进行正则表达式建议的网站推荐（在线正则测试）

二、代码实现

（1）引入库
requests 、re 、os 、SSL（有时可能存在认证问题）

import os
import re
import urllib
import requests
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

（2）请求响应获取页面内容并进行正则匹配

res = requests.get("https://www.nowcoder.com/tutorial/10029/ecbe986667be4d738956f3e105aebe7f")
res.encoding = "utf-8

content4 = re.findall(r'src="(.*?)"', res.text)
print(content4)

在这里插入图片描述
请求之后可以获取了一个url的列表
（3）根据URL列表进行逐一请求、创建文件下载

# 爬取下来的还有非网络url所以进行了处理
list = []
for item in content4:
  if(item[0]=='h'):
    list.append(item)
print(list)
i = 5
# 进行地址字符串的单独进行请求写入
for item in list:
  print(item)
  res = requests.get(item)
  # open(filename, 'wb') 进行创建文件
  with open("/Users/lyf/工程文件/PycharmProjects/Python学习/爬虫/批量下载图片/test/"+str(i)+".jpg", 'wb') as f:
    f.write(res.content)
  i = i+1

本文采用的f.write方式写入，初次之外，还可以采用urllib的urlretriev

urllib.request.urlretrieve(image_url, filename=filename)

然后看看效果在这里插入图片描述
完整代码：

import os
import re
import urllib
import requests
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
res = requests.get("https://www.nowcoder.com/tutorial/10029/ecbe986667be4d738956f3e105aebe7f")
res.encoding = "utf-8"
print(res.text)
# 获取标签中的内容
# 标签中无参数如 <title> <h> <p> 一般未加属性
content1 = re.findall(r'<title>(.*?)</title>', res.text)
content2 = re.findall(r'<p>(.*?)</p>', res.text)
print(content1)
print(content2)

# 标签中含有参数 <a href=""> </a>
# <a.*?>(.*?)</a>  .*?略去  完整超链接<a .*? href=.*?<\/a>
content3 = re.findall(r'<a.*?>(.*?)</a>', res.text)
print(content3)

# 爬取参数

# 爬取图片的地址
content4 = re.findall(r'src="(.*?)"', res.text)
print(content4)
list = []
for item in content4:
  if(item[0]=='h'):
    list.append(item)
print(list)
i = 5
# 进行地址字符串的单独进行请求写入
for item in list:
  print(item)
  res = requests.get(item)
  # open(filename, 'wb') 进行创建文件
  with open("/Users/lyf/工程文件/PycharmProjects/Python学习/爬虫/批量下载图片/test/"+str(i)+".jpg", 'wb') as f:
    f.write(res.content)
  i = i+1