Python模块学习————2、urllib、urllib2学习

最新推荐文章于 2024-04-11 02:50:49 发布

FLy_鹏程万里

最新推荐文章于 2024-04-11 02:50:49 发布

阅读量512

点赞数

分类专栏：【基础编程】 # Python模块篇

本文链接：https://blog.csdn.net/Fly_hps/article/details/79777622

版权

【基础编程】同时被 2 个专栏收录

226 篇文章 21 订阅

订阅专栏

Python模块篇

5 篇文章 4 订阅

订阅专栏

什么是urllib

urllib是python提供的一个用于操作URL的模块，在python2.x中有URllib库，也有Urllib2库，在python3.x中Urllib2合并到了Urllib中，我们爬取网页的时候需要经常使用到这个库。

升级合并之后，模块中包的位置变化的地方比较多。在此，我们总结并为大家列举一些常见的位置变动，方便之前用python2.x的朋友在使用python3.x的时候可以快速的掌握，其他的在用到的时候再具体为大家讲解。

常见的变化有：

python2.x中使用import urllib2——————对应的，在python3.x中会使用import urllib.request,urllib.error。

在python2.x中使用import urllib——————对应的，在python3.x中会使用import urlli.request，urllib.error

在python2.x中使用import urlparse—————对应的，在python3.x中会使用import urllib.parse

在python2.x中使用import urllib2——————对应的，在python3.x中会使用import urllib.request，urllib.error

在python2.x中使用urllib2.urlopen——————对应的，在python3.x中会使用import urllib.request.urlopen

在python2.x中使用urllib.quote——————对应的，在python3.x中会使用import urllib.request.quote

在python2.x中使用cookielib.CoolieJar——————对应的，在python3.x中会使用Http.CookieJar

在python2.x中使用urllib2.Request————对应的，在python3.x中会使用urllib.request.Request。

以上是对urllib相关模块中从python2.x到python3.x的常见的一些变动，如果之前使用的是python2.x版本或者在网上阅读关于python2.x的代码，可以根据以上对应关系写出python3.x程序

urllib与urllib2函数库使用说明

（1）def urlopen(url,data=None,proxies=None)

参数说明：

url：需要打开的网址（必须符合URL规范）

data：向指定的URL发送的数据字符串，Get或者POST都可以，但是必须符合标准格式，格式为：

key1=value1&key2=value2.................

proxies:代理服务器地址字典，如果未指定，在window平台上则根据IE的设置不支持需要验证的代理服务器。

返回值说明：urlopen返回一个类文件对象，该类文件有如下方法：

read(),readline(),readlines(),fileno(),close()：这些方法的使用方式与文件对象完全一样；

info()：返回一个httplib.HTTPMessage对象，表示远程服务器返回的消息；

getcode():返回HTTP状态码。如果是HTTP请求，200表示请求成功完成，404表示资源不存在或未找到。

代码实例：

#encoding:utf-8
import urllib
baidu=urllib.urlopen('http://www.baidu.com')
print "http header:\n",baidu.info()
print 'http status:\n',baidu.getcode()
print 'url:\n',baidu.geturl()
for i in baidu:
    print(i)
baidu.close()

运行结果：

（2）def urlretrieve(url, filename=None, reporthook=None, data=None)

参数说明：

url:符合URL规范的字符串

filename:本地文件路径的字符串，从URL返回的数据将保存在该文件中，如果设置为None则生成一个临时文件。

reporthook：一个函数引用，当连接上服务器、以及相应的数据库传输完毕的时候会触发该函数，我们可以利用这个函数来显示当前的下载进度等等。我们可以任意定义该函数的行为，只需要保证函数有三个参数：

第一个参数：为目前为止传递的数据块数量

第二个参数：为每个数据块的大小，单位为byte

第三个参数:为文件总的大小（某些时候可能为-1）

data:向指定的URL发送的数据字符串，Get和Post都可以，但是必须符合标准格式:

key1=value1&key2=value2..........

函数返回值：返回一个元组（filename,headers）,filename为参数总的filename，header为从服务器传回来的MIME的类型。

实例：

#encoding:utf-8
import urllib
def do(a,b,c):
    """回调函数
    @a: 已经下载的数据块
    @b: 数据块的大小
    @c: 远程文件的大小
    """
    per = 100.0 * a * b / c    
    if per > 100:    
        per = 100    
    print '%.2f%%' % per
url='http://www.baidu.com'
local="I:\python\StoreData\hello.html"
urllib.urlretrieve(url,local,do)

运行结果显示：

（3）其他函数

urllib.quote(string[, safe])：对字符串进行编码。参数safe指定了不需要编码的字符;

urllib.unquote(string) ：对字符串进行解码；

urllib.quote_plus(string[,safe]) ：与urllib.quote类似，但这个方法用'+'来替换' '，而quote用'%20'来代替' '

urllib.unquote_plus(string) ：对字符串进行解码；

urllib.urlencode(query[, doseq])：将dict或者包含两个元素的元组列表转换成url参数。例如字典{'name': 'dark-bull', 'age': 200}将被转换为"name=dark-bull&age=200"

urllib.pathname2url(path)：将本地路径转换成url路径；

urllib.url2pathname(path)：将url路径转换成本地路径；

import urllib
data = 'name = ~a+3'

data1 = urllib.quote(data)
print data1  # result: name%20%3D%20%7Ea%2B3
print urllib.unquote(data1)  # result: name = ~a+3

data2 = urllib.quote_plus(data)
print data2  # result: name+%3D+%7Ea%2B3
print urllib.unquote_plus(data2)  # result: name = ~a+3

data3 = urllib.urlencode({'name': 'dark-bull', 'age': 200})
print data3  # result: age=200&name=dark-bull

data4 = urllib.pathname2url(r'd:/a/b/c/23.php')
print data4  # result: ///D|/a/b/c/23.php
print urllib.url2pathname(data4)  # result: D:/a/b/c/23.php

运行结果：

urllib、urllib2代码实战测试

（1）简单读取网页信息

#coding:utf-8
import  urllib
response=urllib.urlopen('http://www.baidu.com')
print response.read()

运行结果：

FLy_鹏程万里

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python模块学习————2、urllib、urllib2学习

什么是urlliburllib是python提供的一个用于操作URL的模块，在python2.x中有URllib库，也有Urllib2库，在python3.x中Urllib2合并到了Urllib中，我们爬取网页的时候需要经常使用到这个库。升级合并之后，模块中包的位置变化的地方比较多。在此，我们总结并为大家列举一些常见的位置变动，方便之前用python2.x的朋友在使用python3.x的时候可以快...
复制链接

扫一扫