爬虫知识整理

最新推荐文章于 2024-09-28 17:40:14 发布

枫悟

最新推荐文章于 2024-09-28 17:40:14 发布

阅读量233

点赞数

分类专栏：爬虫知识文章标签：爬虫正则 xpath bs4 request和response

本文链接：https://blog.csdn.net/Feng_xiaowu/article/details/102730695

版权

1 篇文章 0 订阅

订阅专栏

基本概念 : 请求网站并提取数据的自动化程序
基本流程
- 发起请求:通过http库向目标站点发起请求,即发送一个Request,请求中可以包含二外的headers,cookie等信息,等待服务器响应
- 获取响应内容: 如果服务器能正常响应,会得到一个Response,Response的内容便是需要获取的页面内容,类型可能为HTML,json字符串,或者二进制数据(视屏音频)等类型
- 解析内容: 根据Response返回的内容,把数据转换为想要的数据类型
- 保存数据: 把数据进行保存,保存格式随意,可为文本,或者存入数据库中

在这里插入图片描述

Request中包含的内容有哪些?
- 请求方式: 主要有GET,POST,两种类型，另外还有PUT、DELETE、HEAD、OPTIONS等
- 请求URL : 统一资源定位符,就是常说的网址(实际上的网址并不仅仅是url)
- 请求头 : 包含请求时的头部信息,如User-Agent,Host,Cookies等信息
- 请求体 : 请求时额外携带的数据,如表单提交时的表单数据

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

正则 xpath bs4 的对比