1、http基本原理
1、URI和URL
URI:统一资源标志符(Uniform Resource Identifier)
URL:统一资源定位符(uniform resource location)
URL是URI的子集
URL提供了一种访问定位因特网上任意资源的手段,但是这些资源可以通过不同的方法访问
2、超文本
网页的html源码就是超文本
3、http和https
HTTP:超文本传输协议是互联网上应用最为广泛的一种网络协议,是一个客户端和服务器端请求和应答的标准(TCP),用于从WWW服务器传输超文本到本地浏览器的传输协议,它可以使浏览器更加高效,使网络传输减少。
HTTPS:是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,HTTPS的安全基础是SSL,因此加密的详细内容就需要SSL。
https的主要作用分为两种:
1、建立一个信息安全的通道来保证数据传输的安全。
2、确认网站的真实性,凡是使用使用了https的网站,都可以通过点击浏览器地址栏的锁头标志来查看网站认证后的真实信息,也可以通过CA机构颁发的安全签章来查询。
4、请求
请求方法有两种:get和post
post请求大多在请求表单时发起
请求的网址即zi'y资源定位符URL,他可以唯一确定我们想请求的资源
请求头:
请求体:请求体一般承载的是POST请求中的表单数据,而对于GET请求,请求体则为空。
5、响应
响应,由服务端返回给客户端,可以分为三个部分:响应状态码、响应头、响应体。
2、会话和Cookies
1、静态网页和动态网页
2、无状态http
会话、cookies、会话维持、属性结构
3、代理
1、基本原理
2、代理的zuo作用
3、爬虫代理
4.代理分类
5.常见代理设置