自动爬取HTML页面
常见异常:
- requests.ConnectionError 网络连接错误异常(DNS查询失败、拒绝连接)
- requests.HTTPError HTTP错误异常
- requests.URLRecuired URL缺失异常
- requests.ToomanyRedirects 超过最大重定向次数(重定向异常)
- requests.ConnectTimeout 连接远程服务器,超时异常
- requests.Timeout 请求URL超时,超时异常
response 返回所有的网页内容
r.raise_for_status() 如果不是200,产生异常requests.HTTPError
爬取网页的通用代码框架
import requests
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raies_for_status() # 状态不是200 ,引发HTTPError
return r.text
except:
return "产生异常"
if_name_ == "_main_":
url = "http://www.baidu.com"
print(getHTMLText(url))
HTTP协议与主要方法
- requests.request() 构造一个请求,支撑以下方法的基础方法
- requests.get() 获取HTML网页的主要方法,对应HTTP的get
- requests.head() 获取HTML网页头信息的方法,对应HEAD
- requests.post() 向HTML网页提交POST请求的方法,对应于POST
- requests.put() 向HTML网页提交PUT请求的方法,对应PUT
- request.patch() 向HTML 网页提交局部修改请求,对应PATCH
- request.delete() 向HTML页面提交删除请求,对应于DELETE
requests.request(method,url,**kwargs)
method: 请求方式,对应get/put/post等7种
url: 拟获取页面的url链接
**kwargs: 控制访问的参数,共13个
eg.r=requests.request('GET',url,**kwargs)
r=requests.request('OPTIONS',url,**kwargs)
获取服务器客户端参数
**kwargs:控制访问的参数,均为可选项
星号开头表示可选,需要命名调用
params:字典或字节序列,作为参数增加到url中
kv={‘key1’:’value1’,’key2’:’value2’}
r=requests.request(‘GET’,’http://python123.io/ws‘, params=kv)
print(r.url)
http://python123.io/ws?key1=value1&key2=value2data:字典、字节序列或文件对象,作为request的内容
kv={‘key1’:’value1’,’key2’:’value2’}
r=requests.request(‘GET’,’http://python123.io/ws‘, params=kv)
body = ‘主体内容’
r = requests.request(‘POST’,’http://python123.io/ws‘,data=body)json:JSON格式的数据,作为request的内容
kv={‘key1’:’value1’}
r=requests.request(‘POST’,’http://python123.io/ws‘, json=kv)headers:字典,HTTP定制头
hd = {‘user-agent’: ‘Chrome/10’} 浏览器版本
r = requests.request(‘POST’, ‘http://python123.io/ws‘, headers=hd)
高级功能
5. cookies: 字典或cookiejar,request中的cookie
6. auth:元组,支持HTTP认证功能
7. files: 字典类型,传输文件
fs = {‘file’: open(‘data.xls’,’rb’)}
r = requests.request(‘POST’,’http://python123.io./ws‘, files=fs)
8. timeout: 设定超时时间,秒为单位
r = requests.request(‘GET’,’http://www.baidu.com‘, timeout=10)
9. proxies: 字典类型,设定访问代理服务器,可以增加登录认证
代理IP,防止逆追踪
pxs = {‘http’: ‘http://user:pass@10.10.10.1:1234‘}
‘https’: ‘https://10.10.10.1:4321’ }
r = requests.request(‘GET’,’http://www.baidu.com‘,proxies=pxs)
10. allow_redirects: True/False, 默认为True,重定向开关
11. stream: True/False, 默认为True,获取内容立即下载开关
12. verify: True/False,默认为True,认证SSL证书开关
13. cert:本地SSL证书路径
requests.get(url,params=None,**kwargs)
最常用
url:拟获取页面的url链接
params:url中的额外参数,字典或字节流格式,可选
*kwargs:12个控制访问的参数 除了params*
requests.head(url,**kwargs)
url:拟获取页面的url链接
**kwargs:13个控制访问的参数
requests.post(url,data=None,json=None,**kwargs)
url:拟更新页面的url链接
data:字典、字节序列或文件,Request的内容
json:JSON格式的数据,Request的内容
**kwargs:11个控制访问的参数
requests.put(url,data=None,**kwargs)
url:拟更新页面的url链接
data:字典、字节序列或文件,Request的内容
**kwargs:12个控制访问的参数
requests.delete(url,**kwargs)
url:拟更新页面的url链接
**kwargs:13个控制访问的参数
HTTP协议对资源的操作
GET 请求获取URL位置的资源
HEAD 请求获取URL为止资源的响应信息报告,即获得该资源的头部信息
用很少的网络流量获取网络资源的概要信息
r = requests.head('http://httpbin.org/get')
r.headers
...
r.text
POST 请求获取URL位置的资源后附加新的数据,不改变现有内容
向URL POST一个字典自动编码为form(表单)
payload = {'key1':'value1','key2':'value2'}
r = requests.post('http://httpbin.org/post', data = payload)
print(r.text)
{ ...
"form": {
""key2": "value2",
""key1": "value1"
},
}
向URL POST一个字符串自动编码为data
r = quests.post('http://httpbin.org/post',data = 'ABC')
print(r.text)
{ ...
"data": "ABC"
"form":{},
}
PUT 请求向URL位置存储一个资源,覆盖原URL位置的资源
payload = {'key1':'value1','key2':'value2'}
r = requests.put('http://httpbin.org/post', data = payload)
print(r.text)
{ ...
"form": {
""key2": "value2",
""key1": "value1"
},
}
PATCH 请求**局部更新**URL位置的资源,即改变该处资源的部分内容
DELETE 请求删除URL位置存储的资源
云端→用户:GET HEAD
用户→云端: PUT POST PATCH DELETE
理解PATCH和PUT的区别
假设URL位置有一组数据UserInfo(包括userID userName)等
需求:用户修改userName,其他不变
- 采用PATCH 仅向URL提交userName的局部更新
- 采用PUT 必须将所有20字段一并提交
HTTP协议:
HTTP,Hypertext Transfer Protocol,超文本传输协议
HTTP是基于“请求与响应”模式的、无状态的应用层协议。
采用URL作为定位网络资源的标识,URL是通过HTTP协议存取资源的Internet路径。URL对应一个数据资源。
http://host[:port][path]
host: 合法的Internet主机域名或IP地址 port:端口号,缺省端口为80
• 介绍ROBOTS.TXT协议
• 爬虫实例
小结
requests库入门
- requests.request() 构造一个请求,支撑以下方法的基础方法
- requests.get() 获取HTML网页的主要方法,对应HTTP的get
- requests.head() 获取HTML网页头信息的方法,对应HEAD
- requests.post() 向HTML网页提交POST请求的方法,对应于POST
- requests.put() 向HTML网页提交PUT请求的方法,对应PUT
- request.patch() 向HTML 网页提交局部修改请求,对应PATCH
- request.delete() 向HTML页面提交删除请求,对应于DELETE
由于网络安全限制,很难向url发起put patch delete
最常用:get 特别大的:head 来获得概要
爬取网页的通用代码框架
import requests
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raies_for_status() # 状态不是200 ,引发HTTPError
return r.text
except:
return "产生异常"
if_name_ == "_main_":
url = "http://www.baidu.com"
print(getHTMLText(url))
网络连接有风险 异常处理很重要 :D