2022.11.13 反爬虫原理学习笔记

2022.11.13
DOM(文档对象模型):对HTML文档中所有元素进行访问的入口,实现页面元素的添加,移除和修改,重排。以面向对象的方式描述文档模型,定义了表示和修改文档所需的对象的名称,行为,关系
BOM(浏览器对象模型):访问浏览器的属性或实现一些方法
javascipt和css对网页内容的改变实际上宿舍对DOM的操作,而非直接改变HTML

Cookie 通过在客户端存储身份信息的方式与服务器保持状态,Session通过服务器来保持状态
第一次发起请求时,服务器的返回带有Cookie保存下来之后,下次再请求这个页面时,带着客户端保存下来的cookie发送给服务器
session对象会存储特定用户会话所需的属性及配置信息,这样可以使得在访问不同页面时带着相同信息

爬虫领域的静态网页:网页主体内容的渲染工作在服务器端完成,并通过相应正文返回的网页
爬虫领域的动态网页是指主体内容或者全部内容都需要客户端执行javascript代码来计算或渲染的网页

爬虫:通用爬虫和聚焦爬虫两大类,通常从一个或者多个url开始,在爬取的过程中不断的将新的并且h符合要求的url放入待爬队列,直到满足程序的停止条件
1.请求指定的URL以获取响应正文
2.解析响应正文内容并从中提取所需信息
3.将上一步提取的信息保存到数据库或文件中

反爬虫:限制爬虫程序访问服务器资源和获取数据的行为,主动型:有意识的使用技术手段区分正常用户和爬虫,被动型:为了提升用户体验或节约资源,用一些技术间接提高爬虫访问难度

信息校验爬虫:
1.use-agent反爬虫
use-agent是请求头域,组成:浏览器标识 (操作系统标识:加密等级标识:浏览器语言) 渲染引擎标识 坂本信息
客户端发起请求的时候会将use-agent一起发给服务器端,服务器端通过包含不符合要求的事物名称的清单判断use-agent是否合法

2.Cookie反爬虫
浏览器会自动检查i响应头中是否存在set-cookie头域,存在,将值保存在本地,并且每次请求都会自动携带对应的cookie值
服务器会校验cookie值是否符合规则,否则在响应头中添加set-cookie头域和cookie值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

github_czy

多谢老哥奖励的咖啡!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值