PHP在GB2312编码下截断字符串

GB2312编码下一个汉字用strlen统计出来的长度为2,那么用substr来截断字符串可能会出现把一个汉字的一半给截掉了,那样就会出现乱码。

首先想到的是按偶数个截断,其实这样思考也是不完善的,因为如果截出来的子串中有一个半角字符,那样还是会出现如上的问题,这个时候地判断子串中包含多少个半角字符,如果是偶数个就按上面的方法解决,如果是奇数个,那就要多截一个或少截一个字符,这样就不会乱码。

其实我首先想到的使用mb_strlen和mb_substr来截,但是我发现我的php文件不是UNICODE编码,那么在这这文件中写的php代码用这两个函数返回的值都是不正确,所以这种方法只在unicode编码可取。

统计半角符号的方法是,从32到127这些ASCII码都是办法,写个函数:

function singleByteCharCount($str) {
	$cnt = 0;
	for ($i = 0; $i < strlen($str); $i++) {
		$sub = substr($str, $i, 1);
		if (ord($sub) < 32 || ord($sub) > 127) {
			continue;
		}
		$cnt++;
	}
	return $cnt;
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值