生成了一个大的日志文件3.3G。文件结构如下:
url:... src_ip&src_port:... dst_ip&dst_port:... gzip_deflate_hex_coding:... gzip_deflate_length:...
要提取coding跟length字段进行分析: 将所有的coding字段重复的length加和,然后除以总的length,日志太大,不能用简单的cpp实现(外部排序实现起来必定要花很多时间)
- 步骤如下:
- 先将coding跟length合并为一行,用cpp或者Python都行
- 然后外部排序,这里用系统自带的sort命令
- 然后再借鉴uniq命令,逐行与上一行对比,如果重复则记下来长度统计,可以用随便cpp或者Python什么语言。
- 收获蛮大的~~happy
网页关键字碰到的问题
最新推荐文章于 2021-06-02 15:16:34 发布