爬虫概念

爬虫概念

爬虫,又称网页蜘蛛或网络机器人. 爬虫是模拟人操作客户端(浏览器,APP)向服务器发起网络请求 抓取数据的自动化程序或脚本
模拟: 不让服务器发现我们是爬虫
客户端: 浏览器和APP, 其是用户与服务器之间进行数据交互的通道, 或者说是桥梁
自动化: 针对于大数据量的
自动化,数量较小时可以人工获取数据,但往往公司中爬取的量都在百万级,所以要程序自动化获取数据

爬虫分类

通用爬虫: 通用爬虫,为搜索引擎提供检索服务。
聚焦爬虫: 聚焦爬虫是针对待定领域,抓取特定数据的爬虫程序
聚焦爬虫又分为增量式爬虫和深度爬虫

聚焦爬虫设计思路:

1.url, 发请求, 获取响应
2.数据解析
3.数据持久化

robots协议

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

网络模型

OSI七层模型: 应用层, 表示层, 会话层, 传输层, 网络层, 数据链路层, 物理层
TCP/IP五层模型: 应用层, 传输层, 网络层, 数据链路层, 物理层
应用层: https http ftp sftp ssh
传输层: tcp udp
网络层: ip
数据链路层: ARP
物理层: 以太网协议

ARP协议

通过IP获取目标计算机的mac地址的协议

交换机不能识别IP地址

## TCP与UDP

tcp:tcp是面向连接的, 可靠的, 基于字节流的传输层通信协议
有序性: 给数据包编号
可靠性: 超时重发, 并有确认的机制
可控性: 滑动窗口协议与拥塞控制算法
正确性: checksum函数, 在接收与发送端都会计算校验和
udp: udp是用户数据报协议, 面向事务的(面向无连接的), 传输不可靠的传输层通信协议
1.传输不可靠, 可能有数据丢失
2.与udp相比, 报文小, 传输速度快
3.适用于吞吐量大, 并且能够承受一定数据损失的传输

标题 http和https的区别

1、http协议:是超文本传输协议,信息是明文传输。如果攻击者截取了Web浏览器和网站服务器之间的传输报文,就可以直接读懂其中的信息。
2、https协议:是具有安全性的ssl加密传输协议,为浏览器和服务器之间的通信加密,确保数据传输的安全。
3,端口号不同,http是80,https是443
4,http协议:免费申请。https协议:需要到ca申请证书,一般免费证书很少,需要交费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值