中文字符截取是一个十分有用的功能,在很多地方都会用到,比如提取定长标题,抽取标签等
由于各种字符集的存储方式的不一样,存在双字节(GBK)多字节(Unicode)的存储方式,这就导致了统一处理的困难。
国际标准UTF8字符编码中,存储中文字符要3个字节,即把php文件存储为UTF8编码格式可以得到 strlen("中")=3
假如直接用php的字符串函数去处理类似这个字符将可能产生乱友的情况,主要是由于在一个完整字符中间强制截断产生半字符的情况。要避免这种情况的唯一办法就是把截断位置延长到这个字符结束的位置进行截断
在PHP中,提供了mbstring模块功能,mbstring以字符作为操作的基本单元,如mb_strlen("中","utf-8")=1 。 大部分的mbstring都要求输入编码,当然可以在php环境中设置默认的编码。参数设置为mbstring.internal_encoding = UTF-8, mbstring.http_input = UTF-8, mbstring.http_output = UTF-8, mbstring.substitute_character = UTF-8。由于php系统一般是存储字节来计算长度的,为了消除mbstring和string之间的差异,使用mbstring的时候就要格外小心 了。
假如不使用mbstring的功能 的话,可以自行编写中文字符处理的函数。
php中文截取函数,经网上搜索学习发现,大部分网络中都是以从开始位置一个一个完整字符来实现的。这有可能导致效率十分底。下面我写了个截取函数,是针对UTF8的
224-239是UTF8中文字符高位(第一位,共三位)ascii区间,换算成十六进制为0xE0 - 0xEF 二进制为1100 0000 - 1100 FFFF。通过适当偏移截取位置来避免在一个字符的中间截断的现象。
附UTF8字符编码规则:区间无重复。
存储字节数 | 字节流( 二进制)(x为可变位) | 最高位区间(10进制) | 低位区间 |
一字节 | 0xxxxxxx | 00 - 7F | 无 |
二字节 | 110xxxxx 10xxxxxx | C0 - DF | 80 - BF |
三字节 | 1110xxxx 10xxxxxx 10xxxxxx | E0 - EF | 80 - BF |
四字节 | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx | F0 - FF | 80 - BF |
在GBK字符编码中,存储中文字符要2个字节,即 把php文件存储为ANSI(GBK)编码格式 可以得到 strlen("中")=2
在GBK字符编码中,中文字符最高位指定是1。
GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE之间,剔除 xx7F一条线。总计 23940个码位,共收入 21886个汉字和图形符号,其中汉字(包括部首和构件) 21003个,图形符号 883个。高位和低位有可能相同所以无法判断高低位了。
但我们知道,gbk2312编码是 在区位码的区号和位号上分别加上0xA0就得到的,区位码中01-09区是符号、数字区,16-87区是汉字区,10-15和88-94是未定义的空白区。所有汉字的编码为16-87加上0xa0,那么我们可以通过判断大于oxa1来判定是否是一个汉字字符。
php实现如下