简单学习了下python爬虫

最新推荐文章于 2024-07-30 20:28:19 发布

IT_SEN

最新推荐文章于 2024-07-30 20:28:19 发布

阅读量146

点赞数

分类专栏：每天学习点python 文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/it_sen/article/details/121106717

版权

每天学习点python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

要爬取网页上的图片，首先需要获取图片的URL地址，可以利用Python的正则表达式处理对象re来完成URL地址的获取，代码如下：

# <-*- coding:UTF-8 -*->

import requests
import re

res=requests.get(url="http://www.woniuxy.com/qynx.html")
res.encoding="utf-8"
print(res.text)


#定义一个列表，用于保存图片地址
image_list=[]

# .+?是需要提取内容的组，前后为左右边界
pattern="(src=\")(.+?)(.png\")"
for match in re.findall(pattern,res.text):
    if not match[1].startswith("http://"):
        url="http://www.woniuxy.com/train/"+match[1]+".png"        
        image_list.append(url)
        print(url)

#遍历整个地址列表进行图片下载
for image_url in image_list:
    response_image=requests.get(image_url)
    #根据URL解析出图片的原始文件名
    temp=image_url.split("/")
    filename=temp[len(temp)-1]
    #注意这里需要手动创建目录
    with  open("D:/woniuImage/"+filename,"wb")  as file:
        file.write(response_image.content)

运行代码下载完成后，可以去电脑“D:/woniuImage/”目录下查看爬取的图片

IT_SEN

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
简单学习了下python爬虫

要爬取网页上的图片，首先需要获取图片的URL地址，可以利用Python的正则表达式处理对象re来完成URL地址的获取，代码如下：# <-*- coding:UTF-8 -*->import requestsimport reres=requests.get(url="http://www.woniuxy.com/qynx.html")res.encoding="utf-8"print(res.text)#定义一个列表，用于保存图片地址image_list=[]# .+
复制链接

扫一扫