爬虫基础--requests库(获取网页信息)

本文介绍了Python爬虫中requests库的基本用法,包括GET和POST请求的发送,处理响应的方法如text、content、json,设置超时、header、cookie以及使用session进行会话保持。还提及了文件上传、证书认证和代理设置等内容。
摘要由CSDN通过智能技术生成

官网文档–http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

发送get,post请求

  • res=requests.get(url) #发送get请求,请求url地址对应的响应
  • res=requests.post(url,data={请求的字典}) #发送post请求
#post请求
import requests

url="http://fanyi.baidu.com/sug"
data={'kw':'早上好'}#该字典键值对的形式可以通过form data中查询
headers={
"User-Agent":"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Mobile Safari/537.36"
}
res=requests.post(url,data=data,headers=headers)
print(res.text)

response方法

  • res.text(该方法往往会出现乱码,出现乱码使用res.encoding=’utf-8’ 或者res.encoding=res.apparent_encoding)
  • res.content.decode(‘utf-8’)#或者’gbk’
  • res.json() #针对响应为json字符串解码为python字典
  • res.request.url #发送请求的url地址
  • res.url #res响应的url地址(页面跳转时,请求的url地址与真正打开的url地址是不同的)
  • res.request.headers #请求头
  • res.headers #res响应头

发送带有header的请求

headers={请求体}#User-agent>>>Referer>>Cookie
-为了模拟浏览器,获取和浏览器一样的内容

超时参数 timeout

requests.get(url,headers=headers,timeout=3) #3秒内必须返回响应,否则会报错
一般为了避免再发出请求过程中出现异常而中断请求,一般采用retrying中的retry函数(作为装饰器调用)

from retrying import  r
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值