python爬虫之requests库
1、requests.get()
import requests
# requests.get是在调用requests库中的get()方法,它向服务器发送了一个请求,括号里的参数是你需要的数据所在的网址,然后服务器对请求作出了响应。
# 我们把这个响应返回的结果赋值给变量res
res = requests.get('URL')
2、
1、response.status_code #检查请求是否响应
2、response.content #把Response对象的内容以二进制数据的形式返回,适用于图片、音频、视频的下载
3、response.text #把Response对象的内容以字符串的形式返回,适用于文字、网页源代码的下载
4、response.encoding #它能帮我们定义Response对象的编码
3、代理使用
import requests
proxy = {
'http':'111.77.197.127:9999'
}
url = 'http://www.httpbin.org/ip'
resp = requests.get(url,proxies=proxy)
print(resp.text)
4、cookies和session配套使用
a). session = requests.session()
#用requests.session()创建session对象,相当于创建了一个特定的会话,帮我们自动保持了cookies
b). cookies_dict = requests.utils.dict_from_cookiejar(session.cookies)
#把cookies转化成字典。
c). cookies = requests.utils.cookiejar_from_dict(cookies_dict)
#把转成字典的cookies再转成cookies本来的格式。
d). session.post(url_1,headers=headers,data=data_1)
#session会自动加载cookies
#基本上直接使用session.post
5、处理SSL不受信任的网站
resp = requests.get('https://inv-veri.chinatax.gov.cn/',verify=False)
print(resp.content.decode('utf-8'))