爬虫【一】

最新推荐文章于 2024-08-26 18:04:13 发布

Z_MYM_Z

最新推荐文章于 2024-08-26 18:04:13 发布

阅读量1k

点赞数

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/Z_MYM_Z/article/details/131888425

版权

4 篇文章 0 订阅

订阅专栏

反爬机制：门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。
反反爬策略：爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站中相关的数据。

robots.txt协议：规定了网站中哪些数据可以被爬虫爬取，哪些数据不可以被爬取。例：（在网址后加上/robots.txt即可查看）
在这里插入图片描述

Rquests库是Python中发起HTTP请求的库。

http协议
— 概念：服务器和客户端进行数据交互的一种新式。
— 常用请求头信息：

User-Agent：请求载体的身份标识
Connection：请求完毕后，是断开连接还是保持连接
例：（网页右击选择检查）

— 常用响应头信息：
Content-Type：服务器响应回客户端的数据类型

https协议：安全的超文本传输协议（http不安全）
加密方式：①对称秘钥加密②非对称秘钥加密③证书秘钥加密

关注

专栏目录