python 自动下载网页链接_Python2 利用urllib模块编写一个自动下载网页上图片的爬虫...

最新推荐文章于 2022-09-19 12:59:47 发布

贾森徐JasonXu

最新推荐文章于 2022-09-19 12:59:47 发布

阅读量114

点赞数

文章标签： python 自动下载网页链接

本文链接：https://blog.csdn.net/weixin_42511338/article/details/113966575

版权

# -*- coding:utf-8 -*-

import re

import urllib

import os

#得到网页源代码

def getHtml(url):

page = urllib.urlopen(url)

html = page.read()

return html

def callbackfunc(blocknum, blocksize, totalsize):

'''回调函数

@blocknum: 已经下载的数据块

@blocksize: 数据块的大小

@totalsize: 远程文件的大小

'''

percent = 100.0 * blocknum * blocksize / totalsize

if percent > 100:

percent = 100

print "%.2f%%"% percent

#下载图片

def getImg(html):

reg = r'src="(.+?\.jpg)" pic_ext' #正则表达式解析图片文件格式

imgre = re.compile(reg) #re.compile() 可以把正则表达式编译成一个正则表达式对象

savePath = r'/home/zjlyyq/PycharmProjects/untitled/images/'

imglist = imgre.findall(html) #re.findall() 方法读取html 中包含 imgre(正则表达式)的数据

x = 0

for imgurl in imglist:

picname = str(x) + '.jpg'

filename = os.path.join(savePath+picname) #设置保存路径

print filename

urllib.urlretrieve(imgurl, filename)

x = x + 1

html = getHtml("http://tieba.baidu.com/p/2460150866")

getImg(html)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

贾森徐JasonXu

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python爬虫之二：爬虫urllib库的使用（1）

qq_35092730的博客

01-12

3443

一、urllib库 urllib是Python自带的标准库，无需安装，可以直接使用。它可以模拟浏览器的行为，向指定的服务器发送一个请求，并可以保存服务器返回的数据。如果想系统性的学习urllib库，可以直接看它的官方文档（https://docs.python.org/3/library/urllib.html）。 1、urllib.request 请求模块在Python3的urllib库中，所有的网络请求相关的方法，都被采集到urllib.request模块中。 urlopen()函数的使用：创建一个

python开发爬虫----urllib2下载网页方法

leader880022的专栏

08-12

424

urllib2下载网页方法1： import urllib2 #直接请求 response = urllib2.urlopen('http://www.baidu.com') #获取状态码，如果返回200则获取成功 print response.getcode() #读取内容 cont = response.read() urllib2下载网页方法2：添加data http header

参与评论您还未登录，请先登录后发表或查看评论

Python 2: 第一个网络爬虫：下载网页

该怎么解释？我懒得解释

01-24

924

前言：说好了要学习Python的，嘿嘿，这两天已经学习了基本的数据模型和数据结构，把环境装好了，试了试简单的一些语句、命令行。现在，总结我的爬虫，啦啦啦啦啦，新手入门，请各位路过的牛、神多多关照 PS：我用的是Python3，虽然我也想用Python2，但是。。。。呃，具体原因先不扯，反正我下载的是3.6.4版本，IDE是pycharm，类比到java的话：安装的Python程序=j

python中的urllib模块中的方法

chengxuyuanyonghu的专栏

03-29

6566

python urllib.request之urlopen函数 urllib是基于http的高层库，它有以下三个主要功能：（1）request处理客户端的请求（2）response处理服务端的响应（3）parse会解析url 下面讨论的是request urllib.request模块

Python 下载网页

houyanhua1的专栏

10-12

377

import urllib import urllib.request import re url="http://www.baidu.net/aa.jpg" path="C:\\myfile\\aa.jpg" urllib.request.urlretrieve(url,path) #根据url下载到路径下

urllib.urlopen已替换为urllib.request.urlopen()

ww0440ww的博客

01-25

2640

python3已经将2.6之前的urllib.urlopen停用，现已替换为urllib.request.urlopen(). 使用webpage.read()读取的页面内容text内容为bytes-object，打印内容为b’……‘ ，无法直接使用到re.search()，使用前需要转换为string类型。 text为bytes-object，将其转换为字符串text.decode()，默认

python爬虫自动下载网页链接

热门推荐

da_kao_la的博客

11-20

1万+

需求分析今天遇到一个简单的需求，需要下载澳大利亚电力市场NEM日前市场的发电商报价数据（http://nemweb.com.au/Reports/Current/Next_Day_Offer_Energy/），页面观感是这样的： Ctrl + F 一下，看到一共有395个zip链接。于是就想着用python爬虫自动下载。这个网页很简单，没有验证码，甚至不需要登录，因此自动下载的pytho...

利用python爬虫(part2)–urllib.parse模块

01-20

文章目录URL地址编码模块作用常用的方法urllib.parse.utlencode({dict})urllib.parse.quote(string)编码urllib.parse.unquote(string)解码 URL地址编码模块模块 urllib.parse 作用对URL地址中的查询参数进行编码...

【Python】Python的urllib模块、urllib2模块批量进行网页下载文件

09-21

手动下载不仅耗时而且效率低下，因此我们可以利用Python编写脚本来自动化这一过程。本文将详细介绍如何使用`urllib` 和 `urllib2` 来实现这一目标。 #### 三、解决方案为了实现自动化下载，我们首先需要了解`...

Python 网络爬虫开发 Python爬虫入门基础教程：Python的urllib2 模块解析共6页.pptx

06-18

Python 的 urllib2 模块是 Python 的一个标准库，提供了访问网页和本地文件的功能。在本教程中，我们将详细了解 urllib2 模块的使用和解析。一、urllib2 模块概述 urllib2 模块是 Python 的一个标准库，提供了...

Python中使用urllib2模块编写爬虫的简单上手示例

09-21

### Python中使用urllib2模块编写爬虫的简单上手示例在Python网络爬虫领域，`urllib2`（适用于Python 2.x版本）是一个不可或缺的工具，它简化了网页抓取的过程，使开发者能够更加专注于业务逻辑而不是底层通信细节...

pythonurllib模块下载图片共9页.pdf.z

10-30

在这个特定的场景中，我们看到标题提到的是"pythonurllib模块下载图片共9页.pdf.z"，这暗示了一个使用`urllib`下载图片的教程或指南，可能是一个PDF文档，共9页，被压缩为了一个`.zip`文件。虽然无法直接提供压缩...

pythonurllib实战教学_Python3爬虫实战（urllib模块）

weixin_34571972的博客

01-14

312

2018.01.27 。我的第一篇博客。在自学Python的过程中,爬虫是我学的最有趣的一个方面，现在我把学习爬虫的总结展示出来。学Python爬虫中，第一个接触的模块就是urllib，下面我将通过实战教学告诉大家如何使用urllib中的request模块构造爬虫，使用工具为Pycharm。1.Requesturllib.request.Request(url,data=None,header...

【Python爬虫】使用urllib.request下载已知链接的网络资源

sinat_37967865的博客

11-24

1647

如果有这样一个场景，我们的EXCEL某一列记录了好多（图片、视频、音频）链接A，另外一列记录了链接名称B，现在我们想要自动下载这些链接的文件，我们应该怎样处理？ 1.循环去excel取值,将A和B存入到一个二维列表中 2.根据链接后缀不同情况（.jpg,.mp4,mp3等）用urllib.request去下载内容具体代码如下： '''''''''''''''''''''''''''''''...

下载单个网页(Python2.7)

程序员大阳

08-26

800

一，功能与目的就是下载一个网页的源代码，网址就是CSDN博客地址：http://blog.csdn.net/woshisangsang二，下载一个网页通过urllib2模块的urlopen方法可以获取一个地址对应的html代码，注意在linux环境下，需要指明解释器的路径，并指明编码（不然没法使用中文）#!/usr/bin/python2.7 # coding=UTF-8 import urllib

python 自动下载网页链接_用python做一个网页自动下载脚本

weixin_35739886的博客

01-28

3388

昨天接到了忻总的一个需求，要从一个自制的网盘上逐个下载文件这个网盘最蛋疼的地方在于文件夹内如果还有文件夹就不能完成打包下载，应该是网站的提供者不希望资源被盗用先来看看正常下载的步骤:再来看看自动下载脚本分析：通过开发者工具可以看到左部文件夹导航栏中文件夹的class名称为‘jstree-anchor ’，并且每次点击文件夹之后页面会动态添加响应的子文件夹，class名称同样为’ jstree-an...

python获取网页链接并下载,python通过链接下载文件

神器榜

09-19

4295

可以使用requests模块完成下载# --------------------第一种：使用headers携带cookie-----------------------------# coding = utf-8import requestsheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1;这个要看具体的代码了，看是不是你代码写的有问题。不过是单线程的，想要多线程下载，比较复杂，我没有试过，这个下载小文件还是没有问题的。

Python应用(三)爬虫基础(一)下载资源链接

DONG_LIN_2019的博客

05-12

976

python爬虫资源下载，当文件很大，容易出现断点，可以使用 header元素的 range字段从断点继续下载。

湖北工业大学在河南2021-2024各专业最低录取分数及位次表.pdf