Response对象中的五个属性:
r.status_code------------------HTTP请求的返回状态,200表示连接成功
r.text---------------------------url对应的页面内容
r.apparent_encoding----------从内容中分析出响应内容的编码方式
r.encoding--------------------从header中猜测响应的内容编码方式
r.content----------------------响应内容的二进制形式
网络爬取通用框架:
def GetHTML(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
return "异常"
if __name__=="__main__":
url=""
print(GetHTML(url))
get(url, **kwargs(可略))方法举例:
import requests
r =requests.get(url) #抓取网页,创建requests对象
print(r.status_code) #检查状态码(200)
**kwargs部分常用参数介绍:
- .params:值为字典或字节序列,作为参数增加到url中
- data:值为字典、字节序列或文件对象,作为request的内容
- json:值为JSON格式的数据,作为Requests的内容
- headers:值为字典,HTTP定制头
-------------前四个为基础-------------------------------- - files:值为字典类型,传输文件
- timeout:设定超时时间,秒为单位