Python保存网页图片保留为原来的名称

最新推荐文章于 2024-05-16 11:09:42 发布

lisheng386

最新推荐文章于 2024-05-16 11:09:42 发布

阅读量953

点赞数

分类专栏： Python 小工具文章标签： python safari chrome

本文链接：https://blog.csdn.net/lisheng386/article/details/122308429

版权

Python 小工具专栏收录该内容

5 篇文章 0 订阅

订阅专栏

都知道下载网页，图片名称会发生变化。要保留原来的名称需要进行一些处理。可以用正则表达式

抓取你想要的图片。

'(photos.sdgcbbs.com.*?png)|(photos.sdgcbbs.com.*?jpg)|(photos.sdgcbbs.com.*?jpeg)'

表示要上面的图片，然后进行下一步处理。

def get_imgurl(r):
rep=r'(photos.sdgcbbs.com.*?png)|(photos.sdgcbbs.com.*?jpg)|(photos.sdgcbbs.com.*?jpeg)'
repg=re.compile(rep)
url_list=repg.findall(r)
list=[]
for tuples in url_list:
for xx in tuples:
if xx !='':
xx=xx.replace('photos.sdgcbbs.com/img/','')
if '/' not in xx and len(xx)>20:
list.append(xx)

#!/usr/bin/python
# -*- coding: UTF-8 -*-

import re
import requests
import os
a='''/anquan
/erjian
/huanping
/jianli
/jingji
/xiaofang
/zaojia
/zckjs
/erjian
/zjkjs
/cjkjs
/yaoshi
/yijian'''

b=a.split('\n')
def openurl(url):
	headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36"}
	req = requests.get(url,headers=headers)
	r=req.content.decode('utf-8','ignore')
	return r
def get_imgurl(r):
	rep=r'(photos.sdgcbbs.com.*?png)|(photos.sdgcbbs.com.*?jpg)|(photos.sdgcbbs.com.*?jpeg)'
	repg=re.compile(rep)
	url_list=repg.findall(r)
	return url_list
def downimg(path,url):
	img_name=re.sub('http://photos.sdgcbbs.com/img/','',url)
	img_name=re.sub(r'.*?/','',url)
	img_name=img_name.strip()
	print(path+'/'+img_name)
	response = requests.get(url)
	img = response.content
	with open(path+'/'+img_name,'wb' ) as f:
		f.write(img)
path='C:\\Users\\Administrator\\Desktop\\work2'
wangzhi='http://bd2.sdjiantu.com'
try:
	for xx in b:
		wangzhiwz=wangzhi+xx
		os.makedirs(path+xx,exist_ok=True)
		r=openurl(wangzhiwz)
		for url in get_imgurl(r):
			for urlr in url:
				if urlr!='':

					urlr='http://'+urlr
					downimg(path+xx,urlr)

except Exception as e:
	print(e)

lisheng386

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python保存网页图片保留为原来的名称

都知道下载网页，图片名称会发生变化。要保留原来的名称需要进行一些处理。可以用正则表达式抓取你想要的图片。'(photos.sdgcbbs.com.*?png)|(photos.sdgcbbs.com.*?jpg)|(photos.sdgcbbs.com.*?jpeg)'表示要上面的图片，然后进行下一步处理。def get_imgurl(r): rep=r'(photos.sdgcbbs.com.*?png)|(photos.sdgcbbs.com.*?jpg)|(photos.s..
复制链接

扫一扫