爬虫的基础

cainaiolin

已于 2022-08-07 20:12:14 修改

阅读量150

点赞数

分类专栏：爬虫文章标签： python

于 2022-07-17 15:13:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cainaiolin/article/details/125831621

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

课程学习

爬虫流程

原则上,只要是客户端(浏览器)能做的事情，爬虫都能够做
爬虫也只能获取客户端(浏览器)所展示出来的数据

只要能登录成功，可见即可爬。

通常步骤

1、先获取网页信息

2、抓取数据

3、提取数据

4、通过框架规模化、分布式

4.1 http请求的过程

浏览器在拿到域名对应的ip后，先向地址栏中的url发起请求，并获取响应
在返回的响应内容（html）中，会带有css、js、图片等url地址，以及ajax代码，浏览器按照响应内容中的顺序依次发送其他的请求，并获取相应的响应
浏览器每获取一个响应就对展示出的结果进行添加（加载），js，css等内容会修改页面的内容，js也可以重新发送请求，获取响应
从获取第一个响应并在浏览器中展示，直到最终获取全部响应，并在展示的结果中添加内容或修改————这个过程叫做浏览器的渲染

请求头

http请求的形式如上图所示，爬虫特别关注以下几个请求头字段

Content-Type
Host (主机和端口号)
Connection (链接类型)
Upgrade-Insecure-Requests (升级为HTTPS请求)
User-Agent (浏览器名称)
Referer (页面跳转处，从哪里跳转来的)
Cookie (Cookie，一般记录登录状态)
Authorization(用于表示HTTP协议中需要认证资源的认证信息，如前边web课程中用于jwt认证)

响应头

2.2 特别关注的响应头字段

http响应的形式如上图所示，爬虫只关注一个响应头字段

Set-Cookie （对方服务器设置cookie到用户浏览器的缓存）

知识点：掌握爬虫关注的请求头和响应头

3. 常见的响应状态码

200：成功
302：跳转，新的url在响应的Location头中给出
303：浏览器对于POST的响应进行重定向至新的url
307：浏览器对于GET的响应重定向至新的url
403：资源不可用；服务器理解客户的请求，但拒绝处理它（没有权限）
404：找不到该页面
500：服务器内部错误
503：服务器由于维护或者负载过重未能应答，在响应中可能可能会携带Retry-After响应头；有可能是因为爬虫频繁访问url，使服务器忽视爬虫的请求，最终返回503响应状态码

**所有的状态码都不可信，一切以是否从抓包得到的响应中获取到数据为准** 看network中reponse返回的内容是否正确，element是渲染过的不可靠。

可以用浏览器访问实际看一下。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。