python正则表达式提取网页的图片链接

最新推荐文章于 2024-07-17 09:07:13 发布

gdd1990shl

最新推荐文章于 2024-07-17 09:07:13 发布

阅读量3.4k

点赞数 4

文章标签：正则表达式 python 爬虫

本文链接：https://blog.csdn.net/gdd1990shl/article/details/114297996

版权

import requests  # 爬虫中最常用的发起请求的第三方库——requests
import re
from urllib.request import urlretrieve
'''
所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。 
在Python中有很多库可以用来抓取网页，例如：urllib2。urllib2在python3.x中被改为urllib.request。
可使用urlretrieve(url, filename)保存下载的文件
'''

headers = {'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) '
                         'AppleWebKit/537.36(KHTML, like Gecko) Chrome/70.0.3538.25 Mobile Safari/537.36'}
# PEP 8: E128 continuation line under-indented for visual indent显示缩进的延续行

res = requests.get('http://www.people.com.cn/', headers=headers)  # 获取网页信息
web = r'http://www.people.com.cn'
pics = re.findall('<img src="/.*?\.png"', res.text)  # 分析网页源码，列出正则表达式。res.text：网页内容的字符串形式
list1 = []

with open('picture.txt', 'w') as f:  # 将网页中的图片链接保存至文件
    for p in pics:
        url = web + p.lstrip('<img src="').rstrip('"')  # lstrip():去掉字符串左边的(头部)
        list1.append(url)
        print(url)  # 在控制台打印图片的链接信息
        f.write(url+'\n')

for i in range(len(list1)):  # 将网页中的图片下载至文件夹
    filename = 'NO.' + str(i) + '.png'
    pic = list1[i]
    urlretrieve(pic, filename)  # 下载图片至本地文件夹