webserver日志中\xCF\xE3\xB8\xDB\xCA\xAE\xB4\xF3\xCE\xC4\xBB\xAF\xB7\xFB\xBA\xC5这种形式原因及处理

最新推荐文章于 2023-02-03 14:49:50 发布

另一只蝴蝶

最新推荐文章于 2023-02-03 14:49:50 发布

阅读量4.9k

点赞数 1

分类专栏： webserver 文章标签： web server 乱码

本文链接：https://blog.csdn.net/princess4426/article/details/48347891

版权

webserver 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

如果在webserver日志里直接看到这种内容：\EF这种格式是因为发送过来的http请求包里，client端使用了二进制汉字编码，没有做urlencode。和具体的编码种类无关，就是原始的十六进制编码值。

处理的方法：把\x替换为%，然后做urldecode，再识别编码。

如果做了上述处理仍然看到这种结果，有可能数据原始内容（例如query）就是这个。

如下是用php做的处理代码

<?php
// 对\xCF\xE3\xB8\xDB\xCA\xAE\xB4\xF3\xCE\xC4\xBB\xAF\xB7\xFB\xBA\xC5这个格式数据做处理
function unknowWordDecode($unknowWords) {
    $unknowWords = str_replace("\x", "%", $unknowWords);
    $unknowWords = urldecode($unknowWords);
    $encoding = mb_detect_encoding($unknowWords, array("UTF-8", "GBK","gb2312"), true);
    if($encoding != "UTF-8") {
        $unknowWords = mb_convert_encoding($unknowWords,'utf-8','gb2312');
    }
    return $unknowWords;
}

其中，第6行使用mb_detect_encoding函数进行编码识别，当字符串较短时，mb_detect_encoding会出现误判。这不算是一个bug，当需要处理文字类型时，建议优先将最大可能性的类型放在前面。

如下为php.net中摘抄的参数列表：

string mb_detect_encoding ( string $str [, mixed $encoding_list = mb_detect_order() [, bool $strict = false ]] )

str 待检查的字符串。
encoding_list 是一个字符编码列表。编码顺序可以由数组或者逗号分隔的列表字符串指定。
如果省略了 encoding_list 将会使用 detect_order。
strict 指定了是否严格地检测编码。默认是 FALSE。

在实际的处理中建议对输出的结果人工判断一下，准确率更好一些。

另一只蝴蝶

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录