python正则表达式提取网页的图片链接

import requests  # 爬虫中最常用的发起请求的第三方库——requests
import re
from urllib.request import urlretrieve
'''
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 
在Python中有很多库可以用来抓取网页,例如:urllib2。urllib2在python3.x中被改为urllib.request。
可使用urlretrieve(url, filename)保存下载的文件
'''

headers = {'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) '
                         'AppleWebKit/537.36(KHTML, like Gecko) Chrome/70.0.3538.25 Mobile Safari/537.36'}
# PEP 8: E128 continuation line under-indented for visual indent显示缩进的延续行

res = requests.get('http://www.people.com.cn/', headers=headers)  # 获取网页信息
web = r'http://www.people.com.cn'
pics = re.findall('<img src="/.*?\.png"', res.text)  # 分析网页源码,列出正则表达式。res.text:网页内容的字符串形式
list1 = []

with open('picture.txt', 'w') as f:  # 将网页中的图片链接保存至文件
    for p in pics:
        url = web + p.lstrip('<img src="').rstrip('"')  # lstrip():去掉字符串左边的(头部)
        list1.append(url)
        print(url)  # 在控制台打印图片的链接信息
        f.write(url+'\n')

for i in range(len(list1)):  # 将网页中的图片下载至文件夹
    filename = 'NO.' + str(i) + '.png'
    pic = list1[i]
    urlretrieve(pic, filename)  # 下载图片至本地文件夹


在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值