webserver日志中\xCF\xE3\xB8\xDB\xCA\xAE\xB4\xF3\xCE\xC4\xBB\xAF\xB7\xFB\xBA\xC5这种形式原因及处理

  如果在webserver日志里直接看到这种内容:\EF这种格式是因为发送过来的http请求包里,client端使用了二进制汉字编码,没有做urlencode。和具体的编码种类无关,就是原始的十六进制编码值。

  处理的方法:把\x替换为%,然后做urldecode,再识别编码。

  如果做了上述处理仍然看到这种结果,有可能数据原始内容(例如query)就是这个。

  如下是用php做的处理代码

<?php
// 对\xCF\xE3\xB8\xDB\xCA\xAE\xB4\xF3\xCE\xC4\xBB\xAF\xB7\xFB\xBA\xC5这个格式数据做处理
function unknowWordDecode($unknowWords) {
    $unknowWords = str_replace("\x", "%", $unknowWords);
    $unknowWords = urldecode($unknowWords);
    $encoding = mb_detect_encoding($unknowWords, array("UTF-8", "GBK","gb2312"), true);
    if($encoding != "UTF-8") {
        $unknowWords = mb_convert_encoding($unknowWords,'utf-8','gb2312');
    }
    return $unknowWords;
}

  其中,第6行使用mb_detect_encoding函数进行编码识别,当字符串较短时,mb_detect_encoding会出现误判。这不算是一个bug,当需要处理文字类型时,建议优先将最大可能性的类型放在前面。

  如下为php.net中摘抄的参数列表:

string mb_detect_encoding ( string $str [, mixed $encoding_list = mb_detect_order() [, bool $strict = false ]] )
  str 待检查的字符串。
  encoding_list  是一个字符编码列表。 编码顺序可以由数组或者逗号分隔的列表字符串指定。
  如果省略了 encoding_list 将会使用 detect_order。
  strict 指定了是否严格地检测编码。 默认是 FALSE。

  在实际的处理中建议对输出的结果人工判断一下,准确率更好一些。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值