网页关键字碰到的问题

  1. 生成了一个大的日志文件3.3G。文件结构如下:

    url:...
    src_ip&src_port:...
    dst_ip&dst_port:...
    gzip_deflate_hex_coding:...
    gzip_deflate_length:...
  2. 要提取coding跟length字段进行分析: 将所有的coding字段重复的length加和,然后除以总的length,日志太大,不能用简单的cpp实现(外部排序实现起来必定要花很多时间)

  3. 步骤如下:
    • 先将coding跟length合并为一行,用cpp或者Python都行
    • 然后外部排序,这里用系统自带的sort命令
    • 然后再借鉴uniq命令,逐行与上一行对比,如果重复则记下来长度统计,可以用随便cpp或者Python什么语言。
  4. 收获蛮大的~~happy
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值