GB2312编码下一个汉字用strlen统计出来的长度为2,那么用substr来截断字符串可能会出现把一个汉字的一半给截掉了,那样就会出现乱码。
首先想到的是按偶数个截断,其实这样思考也是不完善的,因为如果截出来的子串中有一个半角字符,那样还是会出现如上的问题,这个时候地判断子串中包含多少个半角字符,如果是偶数个就按上面的方法解决,如果是奇数个,那就要多截一个或少截一个字符,这样就不会乱码。
其实我首先想到的使用mb_strlen和mb_substr来截,但是我发现我的php文件不是UNICODE编码,那么在这这文件中写的php代码用这两个函数返回的值都是不正确,所以这种方法只在unicode编码可取。
统计半角符号的方法是,从32到127这些ASCII码都是办法,写个函数:
function singleByteCharCount($str) {
$cnt = 0;
for ($i = 0; $i < strlen($str); $i++) {
$sub = substr($str, $i, 1);
if (ord($sub) < 32 || ord($sub) > 127) {
continue;
}
$cnt++;
}
return $cnt;
}