python爬虫爬取网页时翻页只能翻出一页_写爬虫如何获取网页页数并使程序跑完第一页继续前往下一页？...

最新推荐文章于 2023-07-20 16:56:16 发布

weixin_39647773

最新推荐文章于 2023-07-20 16:56:16 发布

阅读量1.4k

点赞数

文章标签： python爬虫爬取网页时翻页只能翻出一页

本文介绍了一个Python爬虫程序，用于从网页抓取图片并按日期创建文件夹进行存储。然而，程序存在一个问题，即图片无法正确存入对应日期的文件夹，而是保存在了外部。代码中展示了获取网页HTML、正则表达式匹配图片URL以及使用urllib下载图片的过程。作者寻求解决图片保存位置错误的方法。

摘要由CSDN通过智能技术生成

该楼层疑似违规已被系统折叠隐藏此楼查看此楼

# -*- coding: utf-8 -*-

import urllib

import re

import time

import os

#显示下载进度

def schedule(a,b,c):

'''''

a:已经下载的数据块

b:数据块的大小

c:远程文件的大小

'''

per = 100.0 * a * b / c

if per > 100 :

per = 100

print '%.2f%%' % per

def getHtml(url):

page = urllib.urlopen(url)

html = page.read()

return html

def downloadImg(html):

reg = r'

imgre = re.compile(reg)

imglist = re.findall(imgre, html)

#定义文件夹的名字

t = time.localtime(time.time())

foldername = str(t.__getattribute__("tm_year"))+"-"+str(t.__getattribute__("tm_mon"))+"-"+str(t.__getattribute__("tm_mday"))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注