安装Requests库
requests.get()-获取百度首页信息
import requests
r = requests.get("www.baidu.com")
#获取反馈信息 200为正常
r.status_code
r.encoding = "utf-8"
r.text
爬取网页的通用代码框架
import requests
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
#如果状态不是200,引发HTTPError异常
r.encoding = r.apparent_encoding
return r.text
except:
return("产生异常")
if _name_=="_main_":
url = "http://www.baidu.com"
print(getHTMLText(url))
HTTP协议及requests方法:
HTTP协议:超文本传输协议
基于“请求与响应”模式的无状态的应用层协议。无状态-第一次和第二次请求没有关联。应用层-在TCP协议之上
URL:http://host【:port】【path】 host:Internet 主机域名。port:端口号,端口为80。path:请求资源的路径
www.bit.edu.cn. 220.181.111.188/duty(internet路径)
Requests库方法解析(get最常使用 head获取概要)
requests.request(method,url,**kwargs)