Python 爬虫基础学习--网络爬虫与信息提取

Python 爬虫基础学习

Requests库的安装

Win平台: “以管理员身份运行”cmd,执行 pip install requests

Requests库的7个主要的方法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Requests库中2个重要的对象:Request和Response
Response对象包含爬虫返回的内容,也包含请求的Request信息。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Requests库的异常

Requests对网页进行访问时时时刻刻都会出现一些问题,那么出现问题就需要相关的异常处理来解决。
在这里插入图片描述
在这里插入图片描述
爬取网页的通用框架为:
在这里插入图片描述
下面介绍一下HTTP协议,以此来了解url:
HTTP协议是超文本传输协议,基于“请求与响应”模式的,无状态的应用层协议,采用URL作为定位网络资源的标识,URL的格式如下:
**http://host[:port][path]**
对于URL的理解:
URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源
在这里插入图片描述
在这里插入图片描述

Request请求

requests.request(method, url, **kwargs)

method : 请求方式,对应get/put/post等7种
url : 拟获取页面的url链接
**kwargs: 控制访问的参数,共13个

**kwargs:控制访问的参数,均为可选项
params:字典或字节序列,作为参数增加到URL中
data:字典、字节序列或文件对象,作为Request的内容
json:JSON格式的数据,作为Requet的内容
headers:字典,HTTP定制头
cookies:字典或CookieJar,Request中的cookie
auth:元组,支持HTTP认证功能
files:字典类型,传输文件
timeout:设定超时时间,秒为单位。
proxies:字典类型,设定访问代理服务器,可以增加登录认证。
allow_redirects :True或False,默认为True,重定向开关。
stream:True或False,默认为True,认证SSL证书开关
cert:本地SSL证书路径

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值