简单学习了下python爬虫

要爬取网页上的图片,首先需要获取图片的URL地址,可以利用Python的正则表达式处理对象re来完成URL地址的获取,代码如下:

# <-*- coding:UTF-8 -*->

import requests
import re

res=requests.get(url="http://www.woniuxy.com/qynx.html")
res.encoding="utf-8"
print(res.text)


#定义一个列表,用于保存图片地址
image_list=[]

# .+?是需要提取内容的组,前后为左右边界
pattern="(src=\")(.+?)(.png\")"
for match in re.findall(pattern,res.text):
    if not match[1].startswith("http://"):
        url="http://www.woniuxy.com/train/"+match[1]+".png"        
        image_list.append(url)
        print(url)

#遍历整个地址列表进行图片下载
for image_url in image_list:
    response_image=requests.get(image_url)
    #根据URL解析出图片的原始文件名
    temp=image_url.split("/")
    filename=temp[len(temp)-1]
    #注意这里需要手动创建目录
    with  open("D:/woniuImage/"+filename,"wb")  as file:
        file.write(response_image.content)

运行代码下载完成后,可以去电脑“D:/woniuImage/”目录下查看爬取的图片

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值