爬虫概念

最新推荐文章于 2024-03-29 12:08:24 发布

jia___qi

最新推荐文章于 2024-03-29 12:08:24 发布

阅读量184

点赞数 1

分类专栏：爬虫概念文章标签： https http 网络协议

本文链接：https://blog.csdn.net/jia___qi/article/details/108377549

版权

爬虫概念专栏收录该内容

1 篇文章 0 订阅

订阅专栏

爬虫概念

爬虫，又称网页蜘蛛或网络机器人. 爬虫是模拟人操作客户端（浏览器，APP）向服务器发起网络请求抓取数据的自动化程序或脚本
模拟: 不让服务器发现我们是爬虫
客户端: 浏览器和APP, 其是用户与服务器之间进行数据交互的通道, 或者说是桥梁
自动化: 针对于大数据量的
自动化，数量较小时可以人工获取数据，但往往公司中爬取的量都在百万级，所以要程序自动化获取数据

爬虫分类

通用爬虫: 通用爬虫，为搜索引擎提供检索服务。
聚焦爬虫: 聚焦爬虫是针对待定领域，抓取特定数据的爬虫程序
聚焦爬虫又分为增量式爬虫和深度爬虫

聚焦爬虫设计思路:

1.url, 发请求, 获取响应
2.数据解析
3.数据持久化

robots协议

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

网络模型

OSI七层模型: 应用层, 表示层, 会话层, 传输层, 网络层, 数据链路层, 物理层
TCP/IP五层模型: 应用层, 传输层, 网络层, 数据链路层, 物理层
应用层: https http ftp sftp ssh
传输层: tcp udp
网络层: ip
数据链路层: ARP
物理层: 以太网协议

ARP协议

通过IP获取目标计算机的mac地址的协议

交换机不能识别IP地址

## TCP与UDP

tcp:tcp是面向连接的, 可靠的, 基于字节流的传输层通信协议
有序性: 给数据包编号
可靠性: 超时重发, 并有确认的机制
可控性: 滑动窗口协议与拥塞控制算法
正确性: checksum函数, 在接收与发送端都会计算校验和
udp: udp是用户数据报协议, 面向事务的(面向无连接的), 传输不可靠的传输层通信协议
1.传输不可靠, 可能有数据丢失
2.与udp相比, 报文小, 传输速度快
3.适用于吞吐量大, 并且能够承受一定数据损失的传输

标题 http和https的区别

1、http协议：是超文本传输协议，信息是明文传输。如果攻击者截取了Web浏览器和网站服务器之间的传输报文，就可以直接读懂其中的信息。
2、https协议：是具有安全性的ssl加密传输协议，为浏览器和服务器之间的通信加密，确保数据传输的安全。
3，端口号不同，http是80，https是443
4，http协议：免费申请。https协议：需要到ca申请证书，一般免费证书很少，需要交费