python连续爬取多个网页的图片分别保存到不同的文件夹

  python连续爬取多个网页的图片分别保存到不同的文件夹


作者:vpoet

mail:vpoet_sir@163.com

 1 #coding:utf-8
 2 import urllib
 3 import urllib2
 4 import re
 5 
 6 
 7 # 将正则表达式编译成Pattern对象
 8 rex=r'src="(http://imgsrc.baidu.com/forum/w%3D580.*?\.jpg)"';
 9 pages = ('1','2');
10 
11 for page in pages:
12     pageurl = "http://tieba.baidu.com/p/3710495592?pn="+page;
13     Response=urllib2.urlopen(pageurl);
14     Html=Response.read();
15     lists = re.findall(rex, Html);
16     lensofpage=len(lists);
17     print lensofpage;
18     
19     picname = 'pic' + page;
20     print picname;
21     x=1;
22     for picurl in lists:
23         urllib.urlretrieve(picurl,'C:\Users\Administrator\Desktop\%s\%s.jpg' % (picname,x));
24         print page+picurl;
25         x=x+1;
26 
27    
28    
29 print 'DownLoadPicOver'
30 # 图片存储路径:C:\Users\Administrator\Desktop\pic1
31         # C:\Users\Administrator\Desktop\pic2
32 #测试爬取网址:http://tieba.baidu.com/p/3710495592?pn=1
33 #         http://tieba.baidu.com/p/3710495592?pn=2

运行截图:





转载于:https://www.cnblogs.com/vpoet/p/4659589.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要实现持续自动网站上的图片保存到指定文件夹中,您可以使用循环和定时器来定期执行操作。以下是一个示例代码: ```python import requests from bs4 import BeautifulSoup import os import time def download_image(url, save_dir): # 发送请求获网页内容 response = requests.get(url) # 解析网页 soup = BeautifulSoup(response.content, 'html.parser') # 找到所有的图片标签 img_tags = soup.find_all('img') # 创建保存图片文件夹 if not os.path.exists(save_dir): os.makedirs(save_dir) # 遍历图片标签,下载并保存图片 for img_tag in img_tags: img_url = img_tag['src'] # 判断图片链接是否为完整链接 if not img_url.startswith('http'): img_url = url + img_url try: # 发送请求下载图片 response = requests.get(img_url) # 获图片的文件名 img_name = img_url.split('/')[-1] # 保存图片到指定文件夹 with open(os.path.join(save_dir, img_name), 'wb') as f: f.write(response.content) print(f'Successfully downloaded {img_name}') except Exception as e: print(f'Failed to download image: {img_url}') print(e) # 要网页链接 url = 'https://example.com' # 图片保存文件夹路径 save_dir = 'images' # 间隔时间(秒) interval = 60 while True: # 调用函数进行图片下载 download_image(url, save_dir) # 等待一段时间后再次执行操作 time.sleep(interval) ``` 在这个示例代码中,我们使用了一个无限循环来持续执行操作。在每次循环中,先调用`download_image`函数来下载图片,然后通过`time.sleep`函数等待一段时间后再次执行循环。您可以根据需要调整`interval`变量来设置间隔时间。 请注意,持续自动网站上的图片可能会对目标网站的服务器造成压力,因此请确保您的行为是合法且不会对网站造成过大的负担。另外,一些网站可能会有反虫机制,请遵守网站的规定并尊重其隐私政策。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值