[color=green]第一次发博,呵呵。[/color]
[color=red]原创,转载请标明出处。[/color]
由于需要,想实现“php截取等长UFT8中英文混合字串”,可是网上找了很多代码不是有乱码就是不能实现等长(以一个中文长度为单位,两个英文字母算一个长度,如‘等长’长度为2,‘UTF8’长度也是2)。
由于utf8编码时,中文为三个字节,英文为一个字节,用substr就会出现乱码,用mb_substr会出现上面的不等长问题,但不会有乱码;
我以字节为单位进行操作,简单实现了一个小程序。
只能在utf8编码是使用。
测试结果:
1.
第
第一
第一次
第一次截
第一次截取
第一次截取,
第一次截取,mb
第一次截取,mb_s
第一次截取,mb_sub
第一次截取,mb_subst
第一次截取,mb_substr
第一次截取,mb_substr返
第一次截取,mb_substr返回
第一次截取,mb_substr返回的
第一次截取,mb_substr返回的是
第一次截取,mb_substr返回的是字
第一次截取,mb_substr返回的是字符
第一次截取,mb_substr返回的是字符串
第一次截取,mb_substr返回的是字符串宽
第一次截取,mb_substr返回的是字符串宽度
2.
第一次截取
第一次截取,
第一次截取,返
第一次截取,返回
第一次截取,返回的
第一次截取,返回的是
第一次截取,返回的是字
第一次截取,返回的是字符
第一次截取,返回的是字符串
第一次截取,返回的是字符串宽
第一次截取,返回的是字符串宽度
第一次截取,返回的是字符串宽度是
第一次截取,返回的是字符串宽度是按
第一次截取,返回的是字符串宽度是按“
第一次截取,返回的是字符串宽度是按“字
第一次截取,返回的是字符串宽度是按“字”
3.
第A一D次截
第A一D次截取
第A一D次截取,
第A一D次截取,返
第A一D次截取,返回
第A一D次截取,返回的
第A一D次截取,返回的12
第A一D次截取,返回的1234
第A一D次截取,返回的12345
第A一D次截取,返回的12345是
第A一D次截取,返回的12345是字
第A一D次截取,返回的12345是字符
第A一D次截取,返回的12345是字符串
第A一D次截取,返回的12345是字符串宽
第A一D次截取,返回的12345是字符串宽度
第A一D次截取,返回的12345是字符串宽度是
4.
12
1234
123456
12345678
1234567890
1234567890ab
1234567890abcd
1234567890abcdef
1234567890abcdefgh
1234567890abcdefghij
长度都以汉字数为基准。
基本上每两个英文字母、数字、英文标点算作一个汉字长度。看上去效果还不错。
改进一下还可以做其它编码下的。
效率没做测试,还没有这概念。
o(∩_∩)o...
[color=red]原创,转载请标明出处。[/color]
由于需要,想实现“php截取等长UFT8中英文混合字串”,可是网上找了很多代码不是有乱码就是不能实现等长(以一个中文长度为单位,两个英文字母算一个长度,如‘等长’长度为2,‘UTF8’长度也是2)。
由于utf8编码时,中文为三个字节,英文为一个字节,用substr就会出现乱码,用mb_substr会出现上面的不等长问题,但不会有乱码;
我以字节为单位进行操作,简单实现了一个小程序。
只能在utf8编码是使用。
/*utf8编码时截取等长中英文字串*/ //英文标点[.,\"\\?!:_']
<?
function substr_utf8($string,$start,$length)
{ //by aiou
$chars = $string;
//echo $string[0].$string[1].$string[2];
$i=0;
do{
if (preg_match ("/[0-9a-zA-Z]/", $chars[$i])){//纯英文
$m++;
}
else {$n++; }//非英文字节,
$k = $n/3+$m/2;
$l = $n/3+$m;//最终截取长度;$l = $n/3+$m*2?
$i++;
} while($k < $length);
$str1 = mb_substr($string,$start,$l,'utf-8');//保证不会出现乱码
return $str1;
}
测试结果:
$string = '第一次截取,mb_substr返回的是字符串宽度是按“字”来计算';
$string1 = '第一次截取,返回的是字符串宽度是按“字”来计算';
$string2 = '第A一D次截取,返回的12345是字符串宽度是按“字”来计算';
1.
echo substr_utf8($string,0,1).'<br/>';
echo substr_utf8($string,0,2).'<br/>';
echo substr_utf8($string,0,3).'<br/>';
echo substr_utf8($string,0,4).'<br/>';
echo substr_utf8($string,0,5).'<br/>';
echo substr_utf8($string,0,6).'<br/>';
echo substr_utf8($string,0,7).'<br/>';
echo substr_utf8($string,0,8).'<br/>';
echo substr_utf8($string,0,9).'<br/>';
echo substr_utf8($string,0,10).'<br/>';
echo substr_utf8($string,0,11).'<br/>';
echo substr_utf8($string,0,12).'<br/>';
echo substr_utf8($string,0,13).'<br/>';
echo substr_utf8($string,0,14).'<br/>';
echo substr_utf8($string,0,15).'<br/>';
echo substr_utf8($string,0,16).'<br/>';
echo substr_utf8($string,0,17).'<br/>';
echo substr_utf8($string,0,18).'<br/>';
echo substr_utf8($string,0,19).'<br/>';
echo substr_utf8($string,0,20).'<br/>';
第
第一
第一次
第一次截
第一次截取
第一次截取,
第一次截取,mb
第一次截取,mb_s
第一次截取,mb_sub
第一次截取,mb_subst
第一次截取,mb_substr
第一次截取,mb_substr返
第一次截取,mb_substr返回
第一次截取,mb_substr返回的
第一次截取,mb_substr返回的是
第一次截取,mb_substr返回的是字
第一次截取,mb_substr返回的是字符
第一次截取,mb_substr返回的是字符串
第一次截取,mb_substr返回的是字符串宽
第一次截取,mb_substr返回的是字符串宽度
2.
echo substr_utf8($string1,0,5).'<br/>';
echo substr_utf8($string1,0,6).'<br/>';
echo substr_utf8($string1,0,7).'<br/>';
echo substr_utf8($string1,0,8).'<br/>';
echo substr_utf8($string1,0,9).'<br/>';
echo substr_utf8($string1,0,10).'<br/>';
echo substr_utf8($string1,0,11).'<br/>';
echo substr_utf8($string1,0,12).'<br/>';
echo substr_utf8($string1,0,13).'<br/>';
echo substr_utf8($string1,0,14).'<br/>';
echo substr_utf8($string1,0,15).'<br/>';
echo substr_utf8($string1,0,16).'<br/>';
echo substr_utf8($string1,0,17).'<br/>';
echo substr_utf8($string1,0,18).'<br/>';
echo substr_utf8($string1,0,19).'<br/>';
echo substr_utf8($string1,0,20).'<br/>';
第一次截取
第一次截取,
第一次截取,返
第一次截取,返回
第一次截取,返回的
第一次截取,返回的是
第一次截取,返回的是字
第一次截取,返回的是字符
第一次截取,返回的是字符串
第一次截取,返回的是字符串宽
第一次截取,返回的是字符串宽度
第一次截取,返回的是字符串宽度是
第一次截取,返回的是字符串宽度是按
第一次截取,返回的是字符串宽度是按“
第一次截取,返回的是字符串宽度是按“字
第一次截取,返回的是字符串宽度是按“字”
3.
echo substr_utf8($string2,0,5).'<br/>';
echo substr_utf8($string2,0,6).'<br/>';
echo substr_utf8($string2,0,7).'<br/>';
echo substr_utf8($string2,0,8).'<br/>';
echo substr_utf8($string2,0,9).'<br/>';
echo substr_utf8($string2,0,10).'<br/>';
echo substr_utf8($string2,0,11).'<br/>';
echo substr_utf8($string2,0,12).'<br/>';
echo substr_utf8($string2,0,13).'<br/>';
echo substr_utf8($string2,0,14).'<br/>';
echo substr_utf8($string2,0,15).'<br/>';
echo substr_utf8($string2,0,16).'<br/>';
echo substr_utf8($string2,0,17).'<br/>';
echo substr_utf8($string2,0,18).'<br/>';
echo substr_utf8($string2,0,19).'<br/>';
echo substr_utf8($string2,0,20).'<br/>';
第A一D次截
第A一D次截取
第A一D次截取,
第A一D次截取,返
第A一D次截取,返回
第A一D次截取,返回的
第A一D次截取,返回的12
第A一D次截取,返回的1234
第A一D次截取,返回的12345
第A一D次截取,返回的12345是
第A一D次截取,返回的12345是字
第A一D次截取,返回的12345是字符
第A一D次截取,返回的12345是字符串
第A一D次截取,返回的12345是字符串宽
第A一D次截取,返回的12345是字符串宽度
第A一D次截取,返回的12345是字符串宽度是
4.
$ss='1234567890abcdefghijklmnopqrst';
echo Utf8Helper::substr_utf8($ss,0,1).'<br/>';
echo Utf8Helper::substr_utf8($ss,0,2).'<br/>';
echo Utf8Helper::substr_utf8($ss,0,3).'<br/>';
echo Utf8Helper::substr_utf8($ss,0,4).'<br/>';
echo Utf8Helper::substr_utf8($ss,0,5).'<br/>';
echo Utf8Helper::substr_utf8($ss,0,6).'<br/>';
echo Utf8Helper::substr_utf8($ss,0,7).'<br/>';
echo Utf8Helper::substr_utf8($ss,0,8).'<br/>';
echo Utf8Helper::substr_utf8($ss,0,9).'<br/>';
echo Utf8Helper::substr_utf8($ss,0,10);
12
1234
123456
12345678
1234567890
1234567890ab
1234567890abcd
1234567890abcdef
1234567890abcdefgh
1234567890abcdefghij
长度都以汉字数为基准。
基本上每两个英文字母、数字、英文标点算作一个汉字长度。看上去效果还不错。
改进一下还可以做其它编码下的。
效率没做测试,还没有这概念。
o(∩_∩)o...