HTTP:超文本传输协议
允许将HTTP文档从Web服务器传送到客户端的浏览器。HTTP请求报文分为3部分。第一部分叫做起始行(Request line)。第二部分叫首部(Request Header)。第三部分叫主题(Body)。
Response一样,响应行(Response line),首部,主体。
Fiddle本质是一个代理服务器,代理地址127.0.0.1,端口;8888
GET /dongye95/home?wvr=5 HTTP/1.1
HTTP/1.1 200 OK
代理服务器
- 共享网络
- 提高访问速度,大部分代理服务器有缓冲功能
- 突破访问限制
- 隐藏身份
Web通信安全
1.浏览器和Web服务器之间的内容应该只有浏览器和Web服务器能够看到通信的真正内容。
2.HTTP请求的内容和HTTP请求的响应不会被第三方篡改。
Web服务器与每个客户端使用不同的对称加密算法。
HTTPS = HTTP + TLS 安全传输层协议或 SSL(Secure Sockets Layer 安全套接层)
HTTPS firefox 证书
包括IE、Chrome 和safari在内的大部分应用都使用Windows证书库来验证证书。firefox浏览器是自己维护证书列表,所以需要单独安装fiddle证书。
Tunnel to
HTTP Tunnel(也叫HTTP隧道,HTTP穿梭)是这样一种技术。它用HTTP协议在要通信的 client 和 server 建立起一条 “Tunnel”。然后client 和server之间的通信都是在这条Tunnel的基础上实现的。简单来说,当Fiddle当做代理转发HTTPS请求的时候,就会产生“CONNECT Tunnels”。
Fiddle可隐藏,Rules-》Hide CONNECTS
HTTP协议请求方法和状态码
HTTP 请求方法
GET | 请求指定的页面信息并返回实体主体 |
HEAD | 类似于GET请求,只不过返回的响应中没有具体的内容,用于获取报头 |
POST | 向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中,post请求可能会导致新的资源的建立和/或对已有资源的修改 |
PUT | 从客户端向服务端传送的数据取代指定文档的内容 |
DELETE | 请求服务器删除指定的页面 |
OPTIONS | 询问支持的方法,用来查询针对请求 URI 指定的资源支持的方法 |
TRACE | 追踪路径,让 Web 服务器端将之前的请求通信环回给客户端的方法 |
CONNECT | 要求用隧道协议连接代理,要求在与代理服务器通信时建立隧道,实现用隧道协议进行 TCP通信。 |
GET
用于获取资源,常用于向服务器查询某些信息。打开网页一般都是用GET方法,因为要以Web服务器获取信息。
参数
浏览器也可以在GET方法中把数据传给服务器,数据放在URL的问号(?)后面,叫查询字符串,也叫做Query String。查询字符串以“名=值”这样的形式出现,多个之间用“&”隔开
POST
通常用来把表单中填好的数据发送给服务器
GET和POST区别
- GET提交的数据会放在URL之后。POST放在Body中。
- GET提交的数据大小是有限制的(URL长度有限制)。POST没有限制。
- GET方式提交数据会带来安全问题,比如用户名和密码出现在URL中。页面被缓存或其他人访问这台机器,可从历史记录中获得该用户的账号和密码。
HTTP/1.1 状态码
状态码 | 已定义范围 | 分类 |
1XX | 100 - 101 | 信息提示表示请求已被成功接收,继续处理 |
2XX | 200 - 206 | 成功表示请求已被成功接收、理解、接收 |
3XX | 300 - 302 | 重定向,要完成请求,必须进行更进一步的处理 |
4XX | 400 - 415 | 客户端错误,请求有语法错误或请求无法实现 |
5XX | 500 - 505 | 服务器错误,服务器未能实现合法的请求 |
常见的状态码
名称 | 释义 |
200 | OK:服务器成功处理了请求(这个是我们见到最多的) |
301/302 | Moved Permanently(重定向):请求的URL已移走。Response中应该包含一个Location URL,说明资源现在所处的位置 |
304 | Not Modified(未修改):客户的缓存资源是最新的,需要客户端使用缓存 |
404 | Not Found:未找到资源 |
401 | 禁止访问 |
501 | Internal Server Error:服务器遇到一个错误,使其无法对请求提供服务 |
200(OK)
表示该请求被成功地完成,所请求的资源成功地发送回客户端。
204(No Content,没有内容)
返回的HTTP响应中只有一些Header和一个状态行,没有实体的主体内容(没有响应Body)
204 状态码作用如下:
- 在不获取资源的情况下了解资源的情况(比如判断其类型)、
- 通过查看HTTP响应中的状态码看某个对象是否存在
- 通过常看Header测试资源是否被修改
206(Partial Content,部分内容)
表示服务器已经成功处理了部分GET请求(只有发送GET方法的HTTP请求,Web服务器才可能返回206)
- FlashGet、迅雷或者HTTP下载工具都是使用206状态码来实现断点续传的
- 将一个大文档分解为多个下载段同时下载,比如在线看视频。
http://tv.sohu.com/20121011/n354681393.shtml
301(Moved Permanently)
表示请求的网页已经永久性地转移到另一个地址
如下情况需要用到301:
- 防止用户输错域名。
- 网站更换域名。比如www.360buy.com改为www.jd.com
- 有多个权重不错的域名,需要把所有的权重都传递到新域名上,这就需要301重定向了。如果不设置301,多个域名绑定在一个主机头上,会被搜索引擎认为是两个相同的站点,不利于网站的排名。绑定的域名越多,内容重复度也就越高,排名越低。
302(Found)
当我们访问一个URL的时候,服务器要我们访问另一个资源,这回收浏览器会继续发一个HTTP,请求访问新的资源。
比如为登陆状态下,直接访问需要登陆才能访问的页面,会被服务器返回302,跳转到登陆页面。
301和302区别
- 301表示旧地址的资源已经被永久的移除了(这个资源不可访问了),搜索引擎会把权重算到新地址。
- 302表示旧地址的资源还在(仍然可以访问),这个重定向只是临时地从旧地址跳转到新地址,搜索引擎会把权重算到旧地址。
304(Not Modified)
304状态码代表上次的文档已经被缓存了,还可以继续使用
如果不想使用本地缓存,用【Ctrl + F5】强制刷新
400(Bad Request)
表示客户端请求有语法错误
401(Unauthorized)
状态码401是指未授权错误,有些网页采用的是HTTP基本认证(Basic Authentication),需要在HTTP请求中带上 Authentication Header,否则服务器会返回状态码401
403(Forbidden)
表示Web客户端发送的请求被Web服务器拒绝了。如果想说明原因,可以在body中说明,但是这个状态码通常表示服务器不想说明拒绝原因
404(Not Found)
资源不存在。本来就不存在,或者被删了,或者被墙了。
500(Internal Server Error)
服务器内部错误。比如代码错误,数据库连接语句出错,空指针等。
503(Server Unavailable)
服务器暂不可用。由于服务器维护或者过载,服务器当前无法处理请求;这个状况是临时的,并且将在一段时间以后恢复。
HTTP协议Header介绍
Header翻译成中文,叫“首部”或者“头域”。
Header语法格式是:“key:value”,一行一个Header
Cache:缓存相关。如果本地有“已缓存的”副本,就可以从本地存储设备而不是从原始服务器中提取这个文档。
Accept:表示浏览器客户端可以接受的媒体类型。
Accept:text/html,*/*;q=0.8 代表浏览器可以处理所有的类型。一般浏览器客户端给Web服务器发送的都是这个。
Accept-Encoding:跟压缩有关。Accept-Encoding: gzip, deflate, br
Accept-Language:浏览器声明自己接受的语言。
User-Agent:浏览器用来告诉服务器,客户端使用的操作系统及版本、CPU类型、浏览器及版本,浏览器渲染引擎、浏览器语言、浏览器插件等。
Referer:用来让服务器判断来源页面,即用户是从哪个页面来的。网站通常用其来统计用户来源,看用户是从搜索页面来的,还是从其他网站链接来的,或是从书签等访问的,以便合理定义网站。
Referer有时也被用作防盗链,即下载时判断来源地址是不是在网站域名之内,否则就不能下载或显示。
Connection:从HTTP/1.1起,系统默认都开启了Connection:Keep-Alive,保持连接特性
HTTP协议是基于TCP协议的。当一个网页完全打开后,客户端和服务器之间用于传输HTTP数据的TCP连接不会关闭;如果客户端再次访问这个服务器上的网页,将会连续使用这一条已经建立的连接。
Keep-Alive不会永久保持连接,它有一个保持时间。
Host:这个Header是必需的,它的作用是指定被请求的主机和端口号。
Web网页抓包和Fiddler修改包
打开一个网页,浏览器需要发送很多个请求。
- 在浏览器输入http://www.cnblogs.com
- 浏览器会发送第一个HTTP请求去获取页面布局的HTML,这个请求叫做“父请求”。然后服务器把HTTP响应发回给浏览器。
- 浏览器