requests.get()
1.reuests.get(url,params=None,**kwargs)
url:拟获取页面的url链接
params:url的额外参数,字典或者字节流格式
**kwargs:12个控制访问的参数
2.Requests库的2个重要对象
r=requests.get(url)
r为response url为request
3.Response对象的属性
r.status_code HTTP请求的返回状态,200为连接成功,其余为连接失败
r.text HTTP响应内容的字符串形式,url对应的页面内容
r.encoding 从HTTP header之中猜测的响应方式,如果没有charset则认为是ISO-8859-1
r.apparent_encoding 从内容中分析出的响应内容编码方式,可以显示出可理解的文字
r.content HTTP响应内容的二进制形式
4.爬虫的通用代码框架:
import requests def getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding=r.apparent_encoding return r.text except: return 'ERROR' if __name__=='__main__': print(getHTMLText('http://www.baidu.com'))5.