长话短说,wireshark有一个follow tcp stream功能,这个功能很方便。美中不足的是提取出的stream 数据没有时间戳等其他信息,在分析数据的延时和丢包问题时就有些力不从心了。这里简单用python实现了一个简单follow tcp stream功能,同时保留了tcp信息。
原理很简单,仍然是基于wireshark,里面有一个Export packet dissection as XML ‘pdml’ file。 导出来之后的文件内容是这个样子的:
看到上面的内容,我想什么都不用说了。用python简单的做个xml文件解析,将数据提取出来就可以了。
那么剩下的一个问题就是follow tcp stream 这个算法如何实现?本质就是一个tcp数据如何重组的过程,具体可以参考这篇博文TCP数据包重组实现分析
这里,简单起见,我做了一些约束:
只能提取A-->B这样的单个方向的数据。如果需要提取B-->A的数据,可以重新过滤一下数据,然后执行一次脚本。忽略最开头的syn包和断开连接时的Fin包。 基于上面两个简化,实际算法可以简化为根据tcp帧中的seq,从小到大排序。简单举个例子:有三个tcp包,按seq排序后如下样子
(seq=1, nxtseq=5, data='1234') , (seq=4, nxt=6, data='45') , (seq=7,nxt=8, data='7')
第一个数据包的nxtseq > 第二个数据的seq,说明两个数据包之间有数据重复,事实也是如此,重复了数字‘4’