转载请注明出处 http://blog.csdn.net/yankai0219/article/details/8269922
0.序 1.http/1.1协议中与chunked编码的相关字段
2.chunked编码
|
0.序
在研究百度云盘的响应过程中,发现其响应采用chunked编码形式,并且没有Content-length字段,因为项目需要,就需要研究一下http/1.1协议中的chunked编码。
首先介绍与chunked编码相关的几个概念,从而引出chunked编码
1.http/1.1协议中与chunked编码的相关字段
1)Entity Body: entity-body只有在message-body出现时才会出现。通过对message-body的解码获得entity-body。transfer-encoding用于确保安全和信息的恰当传输。
Entity-length:在应用任何transfer-encoding之前的message-body的长度。即没有编码之前message-body的长度。
2)Content-length:用于描述HTTP消息实体的传输长度。(the transfer-length of the message-body)
消息实体长度:即Entity-length,压缩之前的message-body的长度
消息实体的传输长度:Content-length,压缩后的message-body的长度。
3)Message Length:这部分的解释必须得看看大牛的解释 http://blog.xiuwz.com/tag/content-length/
以下内容来自于http://blog.xiuwz.com/tag/content-length/
在具体的HTTP交互中,客户端是如何获取消息长度的呢,主要基于以下几个规则:
|
其中比较重要的一点如下所述:
如果存在Transfer-encoding存在,则在header中不能由content-length,有也会被忽略。
如果Content-length存在并且有效的话,则必须和消息内容的传输长度完全一致。
4)content-length字段的作用
Conent-Length表示实体内容长度,客户端(服务器)可以根据这个值来判断数据是否接收完成。但是如果消息中没有Conent-Length,那该如何来判断呢?又在什么情况下会没有Conent-Length呢?
没有Content-length时,客户端如何来判断数据是否接收完成呢?
1)静态页面或者图片:当客户端向服务器请求一个静态页面或者一张图片时,服务器可以很清楚的知道内容大小,然后通过Content-length消息首部字段告诉客户端 需要接收多少数据。
2)动态页面: 如果是动态页面等时,服务器是不可能预先知道内容大小,这时就可以使用Transfer-Encoding:chunk模式来传输 数据了。即如果要一边产生数据,一边发给客户端,服务器就需要使用”Transfer-Encoding: chunked”这样的方式来代替Content-Length。
采用Transfer-encoding的目的
一边产生数据,一边发给客户端。
1)定义
分块传输编码(Chunked transfer encoding)是超文本传输协议(HTTP)中的一种数据传输机制,允许HTTP由网页服务器发送给客户端应用( 通常是网页浏览器)的数据可以分成多个部分。分块传输编码只在HTTP协议1.1版本(HTTP/1.1)中提供。
2)说明:
通常,HTTP应答消息中发送的数据是整个发送的,Content-Length消息头字段表示数据的长度。数据的长度很重要,因为客户端需要知道哪里是应答消息的结束,以及后续应答消息的开始。然而,使用分块传输编码,数据分解成一系列数据块,并以一个或多个块发送,这样服务器可以发送数据而不需要预先知道发送内容的总大小。
3)格式:
如果一个HTTP消息(请求消息或应答消息)的Transfer-Encoding消息头的值为chunked,那么,消息体由数量未定的块组成,并以最后一个大小为0的块为结束。
每一个非空的块都以该块包含数据的字节数(字节数以十六进制表示)开始,跟随一个CRLF (回车及换行),然后是数据本身,最后块CRLF结束。在一些实现中,块大小和CRLF之间填充有白空格(0x20)。
最后一块是单行,由块大小(0),一些可选的填充白空格,以及CRLF。最后一块不再包含任何数据,但是可以发送可选的尾部,包括消息头字段。
消息最后以CRLF结尾。
chunk编码将数据分成一块一块的发生。Chunked编码将使用若干个Chunk串连而成,由一个标明长度为0 的chunk标示结束。每个Chunk分为头部和正文两部分,头部内容指定正文的字符总数(十六进制的数字 )和数量单位(一般不写),正文部分就是指定长度的实际内容,两部分之间用回车换行(CRLF) 隔开。在最后一个长度为0的Chunk中的内容是称为footer的内容,是一些附加的Header信息(通常可以直接忽略)。
Chunk编码的格式如下:
Chunked-Body = *chunk
“0″ CRLF
footer
CRLF
chunk = chunk-size [ chunk-ext ] CRLF
chunk-data CRLFhex-no-zero = <HEX excluding “0″>
chunk-size = hex-no-zero *HEX
chunk-ext = *( “;” chunk-ext-name [ "=" chunk-ext-value ] )
chunk-ext-name = token
chunk-ext-val = token | quoted-string
chunk-data = chunk-size(OCTET)footer = *entity-header
即Chunk编码由四部分组成: 1、0至多个chunk块 ,2、“0″ CRLF ,3、footer ,4、CRLF . 而每个chunk块由:chunk-size、chunk-ext(可选)、CRLF、chunk-data、CRLF组成。
4)chunked编码的程序化表示
(1)c++ 详见http://wuhua.iteye.com/blog/673841
(2)c语言
char * chunkpart1 = "42\r\n" ; char * chunkpart2 = tmpuchar_body_data ; char * chunkpart3 = "\r\n0\r\n\r\n" ; int chunklen = 0; chunklen = strlen(chunkpart1) + strlen(chunkpart2) + strlen(chunkpart3); char * chunk = (char*)ngx_pcalloc(r->pool,chunklen+1); strncpy(chunk,chunkpart1,strlen(chunkpart1)); strncpy((chunk+strlen(chunkpart1)),chunkpart2, strlen(chunkpart2) ); strncpy((chunk+strlen(chunkpart1) + strlen(chunkpart2) ),chunkpart3, strlen(chunkpart3)); |
参考文章
1)http://zh.wikipedia.org/wiki/%E5%88%86%E5%9D%97%E4%BC%A0%E8%BE%93%E7%BC%96%E7%A0%81
2)http://blog.xiuwz.com/tag/content-length/
3)http://wuhua.iteye.com/blog/673841