如果在webserver日志里直接看到这种内容:\EF这种格式是因为发送过来的http请求包里,client端使用了二进制汉字编码,没有做urlencode。和具体的编码种类无关,就是原始的十六进制编码值。
处理的方法:把\x替换为%,然后做urldecode,再识别编码。
如果做了上述处理仍然看到这种结果,有可能数据原始内容(例如query)就是这个。
如下是用php做的处理代码
<?php
// 对\xCF\xE3\xB8\xDB\xCA\xAE\xB4\xF3\xCE\xC4\xBB\xAF\xB7\xFB\xBA\xC5这个格式数据做处理
function unknowWordDecode($unknowWords) {
$unknowWords = str_replace("\x", "%", $unknowWords);
$unknowWords = urldecode($unknowWords);
$encoding = mb_detect_encoding($unknowWords, array("UTF-8", "GBK","gb2312"), true);
if($encoding != "UTF-8") {
$unknowWords = mb_convert_encoding($unknowWords,'utf-8','gb2312');
}
return $unknowWords;
}
其中,第6行使用mb_detect_encoding函数进行编码识别,当字符串较短时,mb_detect_encoding会出现误判。这不算是一个bug,当需要处理文字类型时,建议优先将最大可能性的类型放在前面。
如下为php.net中摘抄的参数列表:
string mb_detect_encoding ( string $str [, mixed $encoding_list = mb_detect_order() [, bool $strict = false ]] )
str 待检查的字符串。
encoding_list 是一个字符编码列表。 编码顺序可以由数组或者逗号分隔的列表字符串指定。
如果省略了 encoding_list 将会使用 detect_order。
strict 指定了是否严格地检测编码。 默认是 FALSE。
在实际的处理中建议对输出的结果人工判断一下,准确率更好一些。