1.爬虫概述

最新推荐文章于 2024-04-14 20:34:52 发布

clown丶随你

最新推荐文章于 2024-04-14 20:34:52 发布

阅读量503

点赞数

分类专栏：爬虫笔记文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/just_you_57/article/details/128006599

版权

9 篇文章 0 订阅

订阅专栏

爬虫概述

通过编写程序，模拟浏览器上网，抓取网络上整个页面或特定数据

综上，我们要时常优化自己的爬虫程序，避免干扰到正常网站的运行，并且在爬取到数据时，发现涉及用户隐私和商业机密等敏感内容时，一定要终止爬取和传播。

反爬机制

门户网站，可以制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取

UA检测💎💎💎：门户网站会检测对应载体的身份标识，若标识为某一浏览器，则正常，若不是基于浏览器，则表示不正常，则服务器可能会拒绝请求。
反反爬策略

爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站的反爬机制，从而获取门户网站相关数据。

UA伪装💎💎💎：使我们的爬虫程序伪装程一款浏览器
robots.txt 协议

君子协议，规定网页中哪些数据可以爬取，哪些数据不可以爬取。（防君子，不防小人）

服务器和客户端之间机型数据交互的一种遵循形式。

HTTP协议把一条消息分为三部分：

请求
- 请求行 -> 请求方式（get/post）请求 url 地址，协议
- 请求头 -> 放一些服务器要使用的附加信息
  - user-Agent：请求载体身份标识
  - connection：请求完毕后是否断开连接
- 请求体 -> 一般放一些请求参数
响应
- 状态行 -> 协议，状态码
- 响应头 -> 放一些用户端要使用的一些附加信息
  - content-Type：响应数据类型
- 响应体 -> 服务器返回的真正客户端要用的内容（HTML，json）等