没事写了两个函数,php中gbk和utf-8中文无乱码截取

一,gbk/gb2312中文截取

在gbk/gb2312编码中一个中文占两个字节,一个ascii字符占一个字节,函数如下:

//gbk,gb2312字符串截取函数
function gbk_substr($str,$len){
	if($len<=0)
		return '';
	$chars=0;
	$bytes=0;
	$str_bytes=strlen($str);
	for($i=0;$i<$str_bytes && $chars<$len;$chars++){
		if(ord($str[$i])>127){//当字符的码值大于127时为中文,此时应该截取两个字节
			$bytes += 2;
			$i += 2;
		}else{
			$bytes += 1;
			$i += 1;
		}
	}
	return substr($str,0,$bytes);
}



二,utf-8中文截取

在utf-8编码中,基本上包含了世界各国的所有文字,各种字符占1-6个字节不等,比如一个中文通常占3个字节

//utf-8字符串截取函数
function utf8_substr($str,$len){
	if($len<=0)
		return '';
	$chars=0;
	$bytes=0;
	$str_bytes=strlen($str);
	for($i=0;$i<$str_bytes && $chars<$len;$chars++){
		$bin_str=decbin(ord($str[$i]));
		
	if(strlen($bin_str)<8){
           $bytes += 1;
	   $i += 1;
        }else if(($bin_str & "11100000")=="11000000"){
           $bytes += 2;
	   $i += 2;
        }else if(($bin_str & "11110000")=="11100000"){
           $bytes += 3;
	   $i += 3;
        }else if(($bin_str & '11111000')=='11110000'){
            $bytes += 4;
	   $i += 4;
        }else if(($bin_str & "11111100")=="11111000"){
            $bytes += 5;
	   $i += 5;
        }else if(($bin_str & "11111110")=="11111100"){
            $bytes += 6;
	   $i += 6;
        }
		
	}
	
	return substr($str,0,$bytes);
}



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值