Python爬虫web请求过程剖析一

牛牛丫

已于 2022-09-15 19:17:42 修改

阅读量262

点赞数

分类专栏：爬虫文章标签：大数据

于 2022-06-28 23:33:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_64010473/article/details/125480604

版权

一,爬虫学术含义:

就是通过编写程序模拟浏览器上网,然后让其去互联网抓取数据的过程.

二,爬虫分类

通用爬虫抓取的是一整张页面数据.
聚焦爬虫抓取的是页面中特定的局部内容
增量式爬虫监测网站中数据更新的情况,只会抓取网站中最新更新出来的数据

三,robots.txt协议: --君子协议.规定网站中哪些数据可以爬取,哪些不可以爬取

可以通过网站域名 + /robots.txt的形式访问该网站的协议详情，例如：www.taobao.com/robots.txt

1,服务器渲染:

---在服务器那边直接把数据和html整合在一起,统一返回给服务器

---在页面源代码中能看到数据

2,客户端渲染:

---第一次请求只返回一个html框架,第二次请求拿到数据,进行数据展示

---在页面源代码中看不到数据

请求:

--1,请求行=>请求方式(get/post)=>请求url地址协议

--2,常用请求头信息:放一些服务器使用的附加信息

User-Agent:请求载体的身份标识
Connection:请求完毕后,是断开还是保持继续
Referer:防盗链
cookie:本地字符串数据信息(用户登陆信息)

--3,请求体-->放一些请求参数

响应:

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫web请求过程剖析一

一,含义:通过编写程序模拟浏览器上网,然后让其去互联网抓取数据的过程.二,爬虫分类三,robots.txt协议: --君子协议.规定网站中哪些数据可以爬取,哪些不可以爬取http协议:就是服务器和客户端进行数据交互的一种形式常用请求头信息:User-Agent:请求载体的身份标识Connection:请求完毕后,是断开还是保持继续常用响应头信息:Content-Type:服务器响应回客户端的数据类型https协议:安全的超文本传输协议最终https采用的是证书密钥加密加密方式: 对称密钥加密;非对称密钥加密
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。