python 爬虫常用模块:
Python标准库——urllib模块
功能:打开URL和http协议之类
注:python 3.x中urllib库和urilib2库合并成了urllib库。
其中urllib2.urlopen()变成了urllib.request.urlopen(),urllib2.Request()变成了urllib.request.Request()
urllib请求返回网页
urllib.request.urlopenurllib.request.open(url[,data,[timeout,[cafile,[capth[,cadefault,[context]]]]]])
urllib.requset.urlioen可以打开HTTP(主要)、HTTPS、FTP、协议的URL
ca 身份验证
data 以post方式提交URL时使用
url 提交网络地址(全程 前端需协议名 后端需端口 http:/192.168.1.1:80)
timeout 超时时间设置
函数返回对象有三个额外的方法
geturl() 返回response的url信息
常用与url重定向info()返回response的基本信息
getcode()返回response的状态代码
示例:#coding:utf-8
import urllib.request
import time
import platform
#清屏函数(无关紧要 可以不写)
def cl