Chunked 数据块的重组

最新推荐文章于 2022-10-26 18:31:50 发布

随风飘荡的火焰

最新推荐文章于 2022-10-26 18:31:50 发布

阅读量1.5k

点赞数

文章标签： null 工作网络

本文链接：https://blog.csdn.net/qc20042/article/details/5896096

版权

Chunked 数据块的重组

本文主要针对网页数据由 N 个 chunked 数据块组成的情况进行分析。

一、 chunked 块的组成结构

每一个 Chunked 数据块包含两部分，两部分用字符串 ”/r/n” 区分开，主要内容是：

1．数据块的长度 (16 进制 )

2．数据部分

所以单独的 chunked 块结构如： A0/r/ndata…./r/n

A0 为 16 进制的数据长度； data… 为数据部分，长度是 A0;

多个 chunked 的组成形式如：

A0/r/n[dataof(chunked)]/r/nB0/r/n[dataof(chunked)]/r/n A1/r/n[dataof(chunked)]/r/n 0/r/n/r/n

在整个 chunked 的结束部分由字符“ 0/r/n/r/n ”来表示。

二、 chunked 的解码代码

Chunked 的解析工做主要是将 chunked 块中的数据部分根据给出的长度提取出来。

代码如下：

/* pSrc: 原 chunked 数据包 nSize: 数据包大小 pDes: 解析完成后的数据 */ int DecodeChunked(const char* pSrc,int nSize, char** pDes) { int nRetSize = 0, nLeftSize = 0; printf("total data length=%d; /n",nSize); *pDes = (unsigned char*)malloc(nSize); if(pDes == NULL) return -1; char *pBegin = strstr(pSrc,"/r/n/r/n"); if (pBegin == NULL) return -1; pBegin += 4; while(1) { int ChunkedSize = 0; sscanf(pBegin,"%x",&ChunkedSize); if( 0==ChunkedSize ) { puts("endof chunkeds"); break; } pBegin = strstr(pBegin,"/r/n"); if (pBegin == NULL) return -1; pBegin += 2; // /r/n nLeftSize = nSize - (pBegin - pSrc); if (ChunkedSize > nLeftSize) ChunkedSize = nLeftSize; memcpy(*pDes+nRetSize,pBegin,ChunkedSize); nRetSize += ChunkedSize; if (ChunkedSize == nLeftSize) /* 数据包不全 */ break; pBegin += ChunkedSize; if (strstr(pBegin,"/r/n") != NULL) pBegin += 2; // /r/n else break; } return nRetSize; }

二、 chunked 网络包数据信息的提取方式

chunked 块中关键字的获取，总的来说可以用两种方法：

1．每来一个数据包，都提取出 gzip 压缩包，然后解压

2．等所有数据包重组完成，一次性提取 gzip 压缩包解压

当然两种方式都有存在优点与缺点：

使用第一种方法：

优点：如果包中包含关键字，可以很快检测，后面的包就不需要接收了。

缺点：如果检测的网页中不包含关键字，那么这个工作将一直持续下去，知道整个网页都发送结束。因为解压的时候需要依赖前面所有的包，

假设有 100 个数据包，那么第一个包就要解压 100 次，第二个 99 次，依次递减。

总共要解压的次数是 : （ 100+1 ） *100/2

使用第二种方法：

优点：不用每次数据包过来都重组、解析 chunked 、解压。操作次数减少很多

缺点：每次都要等数据全部收集完成重组才能解包。如果包中包含关键字信息，可能在前 10 个包中就有，这时候依然要等待所有的包都发送过来才能提取 chunked 和解压。

用统计方法决定：

根据被检测关键字与库中的比例

随风飘荡的火焰

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
Chunked 数据块的重组

Chunked数据块的重组本文主要针对网页数据由N个chunked数据块组成的情况进行分析。一、chunked块的组成结构每一个Chunked数据块包含两部分，两部分用字符串”/r/n”区分开，主要内容是：1．数据块的长度(16进制)2．数据部分所以单独的chunked块结构如：A0/r/ndata…./r/nA0为16进制的数据长度；data…为数据部分，长度是A0;多个chunked的组成形式如：A0/r/n[dataof(chunked)]/r/nB0/r/n[dataof(chunked)]
复制链接

扫一扫