2022.11.13
DOM(文档对象模型):对HTML文档中所有元素进行访问的入口,实现页面元素的添加,移除和修改,重排。以面向对象的方式描述文档模型,定义了表示和修改文档所需的对象的名称,行为,关系
BOM(浏览器对象模型):访问浏览器的属性或实现一些方法
javascipt和css对网页内容的改变实际上宿舍对DOM的操作,而非直接改变HTML
Cookie 通过在客户端存储身份信息的方式与服务器保持状态,Session通过服务器来保持状态
第一次发起请求时,服务器的返回带有Cookie保存下来之后,下次再请求这个页面时,带着客户端保存下来的cookie发送给服务器
session对象会存储特定用户会话所需的属性及配置信息,这样可以使得在访问不同页面时带着相同信息
爬虫领域的静态网页:网页主体内容的渲染工作在服务器端完成,并通过相应正文返回的网页
爬虫领域的动态网页是指主体内容或者全部内容都需要客户端执行javascript代码来计算或渲染的网页
爬虫:通用爬虫和聚焦爬虫两大类,通常从一个或者多个url开始,在爬取的过程中不断的将新的并且h符合要求的url放入待爬队列,直到满足程序的停止条件
1.请求指定的URL以获取响应正文
2.解析响应正文内容并从中提取所需信息
3.将上一步提取的信息保存到数据库或文件中
反爬虫:限制爬虫程序访问服务器资源和获取数据的行为,主动型:有意识的使用技术手段区分正常用户和爬虫,被动型:为了提升用户体验或节约资源,用一些技术间接提高爬虫访问难度
信息校验爬虫:
1.use-agent反爬虫
use-agent是请求头域,组成:浏览器标识 (操作系统标识:加密等级标识:浏览器语言) 渲染引擎标识 坂本信息
客户端发起请求的时候会将use-agent一起发给服务器端,服务器端通过包含不符合要求的事物名称的清单判断use-agent是否合法
2.Cookie反爬虫
浏览器会自动检查i响应头中是否存在set-cookie头域,存在,将值保存在本地,并且每次请求都会自动携带对应的cookie值
服务器会校验cookie值是否符合规则,否则在响应头中添加set-cookie头域和cookie值