运用requests-re技术路线,从一个网页(金毛犬网页)上大量爬取此网页上的图片并保存在指定路径
以下是实现代码
import requests
import os
import re
#获取网页Html页面
def getHTMLText(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
return ""
#为图片创建文件夹并大量保存
def get_img(ilt,html):
ilt=re.findall(r'\"pic_url\"\:\"([^"]+\.jpg)\"',html)#正则表达式匹配字符串,字符串为图片网址,进入网页源码中查找出匹配字符串的特征
root="D://picss//"
for each in ilt:
path=root+each.split('/')[-1]#用图片网址名称做为保存路径的名称
try:
if not os.path.exists(root):
os.mkdir(root)
if not os.path.exists(path):
r=requests.get(each)