Python 爬虫基础学习--网络爬虫与信息提取

最新推荐文章于 2024-08-15 23:34:28 发布

chenbiyun940419

最新推荐文章于 2024-08-15 23:34:28 发布

阅读量177

点赞数

分类专栏：网络爬虫基础文章标签：爬虫 python requests

本文链接：https://blog.csdn.net/chenbiyun940419/article/details/84828971

版权

网络爬虫基础专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Python 爬虫基础学习

Requests库的安装

Win平台: “以管理员身份运行”cmd，执行 pip install requests

Requests库的7个主要的方法

在这里插入图片描述

Requests库中2个重要的对象：Request和Response
Response对象包含爬虫返回的内容，也包含请求的Request信息。

Requests库的异常

Requests对网页进行访问时时时刻刻都会出现一些问题，那么出现问题就需要相关的异常处理来解决。
在这里插入图片描述

爬取网页的通用框架为：

下面介绍一下HTTP协议，以此来了解url：
HTTP协议是超文本传输协议，基于“请求与响应”模式的，无状态的应用层协议，采用URL作为定位网络资源的标识，URL的格式如下：
**http://host[:port][path]**
对于URL的理解：
URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源
在这里插入图片描述

Request请求

requests.request(method, url, **kwargs)

method : 请求方式，对应get/put/post等7种
url : 拟获取页面的url链接
**kwargs: 控制访问的参数，共13个

**kwargs：控制访问的参数，均为可选项
params：字典或字节序列，作为参数增加到URL中
data：字典、字节序列或文件对象，作为Request的内容
json：JSON格式的数据，作为Requet的内容
headers：字典，HTTP定制头
cookies：字典或CookieJar，Request中的cookie
auth：元组，支持HTTP认证功能
files：字典类型，传输文件
timeout：设定超时时间，秒为单位。
proxies:字典类型，设定访问代理服务器，可以增加登录认证。
allow_redirects ：True或False，默认为True，重定向开关。
stream：True或False，默认为True，认证SSL证书开关
cert：本地SSL证书路径

chenbiyun940419

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python 爬虫基础学习--网络爬虫与信息提取

Python 爬虫基础学习Requests库的安装Win平台: “以管理员身份运行”cmd，执行 pip install requestsRequests库的7个主要的方法Requests库中2个重要的对象：Request和ResponseResponse对象包含爬虫返回的内容，也包含请求的Request信息。Requests库的异常Requests对网页进行访问时时时刻...
复制链接

扫一扫

专栏目录