我们平时通过浏览器可以从URL中获取相应的资源并展示出来,但是很多时候我们只是需要对获取的html资源进行特定的处理,就用到了python的urliib,urllib2和httplib等标准库
urllib2用于编写需要和http服务器,ftp服务器和本地文件交互的客户端;典型的应用程序有:抓取网页数据,代理,web爬虫等1.使用urlopen()发生请求,获取HTTP资源
urlopen(url[, data[, timeout]])
参数解释:
url:可以是包括URL的字符串,也可以是Request类的实例(下面会讲到);
data:是使用urlencode()方法进行编码后的查询数据,常见的如填写一网页的表单数据,然后进行编码赋值给data,传入urlopen()函数;
timeout:顾名思义就是超时时间的设置
urlopen()函数返回类文件对象,先暂时记为u,支持下列方法:
u.read([nbytes]):以字节字符串形式读取nbytes个数据
u.readline(): 以字节字符串形式读取但行文本
u.readlines(): 读取所有输入行并返回列表
u.close()
u.geturl(): 返回实际的url,因为有可能发生重定向问题
u.getcode(): 获取HTTP响应代码
其中最常见的HTTP响应代码有
1