Python爬虫会用到的相关方法和参数

Python爬虫

使用requests仓库

在 request类库运行时,客户端给服务器发送一个请求Request对象
服务器回复了一个 Response对象

客户端 给服务器发送 Requests对象

服务器 给客户端反馈 Response对象

Request类库的主要方法

  • request.get() //获取HTML网页的方法

  • requests.head() // 获取网页头信息的方法

  • requests.post() // 向HTML网页提交POST头方法

  • reqyests.put() // 向 HTML网页提交PUT请求方法

  • requests.patch() //向网页提交局部修改请求

  • requests.delete() // 向网页提交删除请求

  • requests.request //构造一个请求,支撑上述个方法的基础方法

import requests

ret= requests.get('http://www.cqepc.cn')
print('HTTP状态码:',ret.status_code)
print('主页内容:,ret.text)

ret变量得到返回一个包含服务器资源的Request对象。

params: url中的额外参数,自带你或字节流格式可选

**kwargs: 12个控制访问的参数

常见访问属性

status _code
200 表示成功
400 表示失败

text http响应内容的字符串形式,url对应的页面内容

encoding 从HTTP header 中猜测的响应内容编码形式

apparent_encoding 从内容分析出的响应内容的编码方式

content http相应内容的二进制形式

headers 响应的头部

常见异常

   Requests.ConnectionError 遇到网络问题(DNS查询失败,拒绝链接) 
Requests.HTTPError  HTTP错误 
Requests.URLRequired  URL异常
Requests.timeout   请求超时
Requests TooManyRedurects  超过最大重定向次数,产生重定向异常
Requests.ConnectTimeout 链接服务器异常

http相关方法

 get 请求指定的页面信息,并返回实体
 head 类似get请求,只不过返回的响应中没有具体的内容,用于获取报文
 Post 向指定资源提交数据 ,进行处理  数据被包含在请求体中
 POst请求可能会导致新的资源新的建立
 options 允许客户端查看服务器的性能
 Trace  回显服务器收到的请求,主要用于测试和诊断

**kwargs

params 字典或字节序列,组为参数增加到url中
 
data    url的内容

JSON 格式的数据 作为Request的 内容

headers  字典 HTTP定制头

cookies  字典 Cookiejar,Request中cookie

auth   元组 支持http认证功能

 files   字典类型  传输文件

timeout  设置超出时间  单位秒

控制访问参数

proxies   字典类型 设定访问代理服务器 可以增加堵路认证

allow_redirects  True/False 默认为True,重定向功能

Stream    True / False 默认为True,获取内容立即下载开关

verify    True False  默认为True,认证ssl证书开关

cert     本地SSl证书路径
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值