PHP字符串操作大集合
在Web应用中,用户和系统的交互基本上是用文字来进行的,因此系统对文本信息,即字符串的处理非常重要。文本字符串操作内容很多,本节将一一介绍。
3.1.1 去除空格和其他特殊符号
有时,需要去掉字符串中的空格或者其他没有意义的符号。例如,在一个电子商务应用中,当用户填写订单的内容时(如联系地址),可能输入一些空格、句号等字符,系统希望在存储之前把它们去掉,只剩下有意义的信息。为了完成类似于上述需求的问题,PHP4及以上版本提供了4个去除字符串中特殊符号的函数。
以上函数的第1个参数str为待操作的字符串,第2个可选参数charlist指定想要去除的特殊符号,当缺省时默认值为去掉下列字符:空格("")、制表符(\t)、换行符(\n)、回车符(\r)、空值(\0)。还可以使用“..”通过第2个参数指定需要去除一个范围内的字符,例如“a..d”指去掉ASCII码值介于a和d之间的字符,即a、b、c、d。
下面以trim()为例说明上述函数的使用。
1
2
3
4
5
6
7
8
9
10
11
第3行定义了一个字符串变量,在其首部有空格和逗号,其尾有句号和空格;
第5行使用不带第2个参数的trim()函数去掉了其中首尾处的空格符号;
第7行使用带有第2个参数的trim()函数去掉了其首尾处的第2个参数中所包含的字符,即去掉了首尾处的空格、逗号和句号。
第9行trim()中第2个参数中的“0..9”说明将要去掉位于0和9的ASC码范围内的所有字符。
ltrim()、rtrim()的使用同trim()类似,而chop()实际上是rtrim()的别名,其功能与rtrim()一样,不再赘述。
3.1.2 加入和去除反斜杠
在许多应用中,例如生成SQL语句时(SQL语句将在第二部分中介绍),需要在其中加入转义字符‘\’,手工构造起来相当麻烦。为了解决类似问题,PHP提供了自动在字符串中加入或去除转义字符的函数。
二者的使用参考下面代码。
1
2
3
4
5
6
7
8
9
代码在第5行在$init_str中的‘’’前加上了‘\’,又在第9行将其去掉。
3.1.3 生成HTML元素
HTML元素的书写非常麻烦,下面简单列出一些常用字符在HTML中的表示方式。
此处,称'&'等为HTML元素,'&'等为其显示字符串。例如,若想在页面上的显示“<ahref='test'>链接</a>”,HTML应写为“<ahref='test'>Test</a>”,否则,将只在页面上显示一个链接信息。
PHP提供了下面的函数来自动转化HTML元素。
上面函数中,参数str表示原始字符串;可选参数quote_style确定是否转换双引号和单引号,取值范围为{ENT_COMPAT , ENT_QUOTES ,ENT_NOQUOTES},分别表示只转换双引号、全转换、全不转换,缺省时默认值为ENT_COMPAT;第3个参数charset指定了转换中所用的字符集。PHP4及以上版本所支持的字符集参考表3.1。
表3.1
字 符 集 | 说 明 |
ISO-8859-1 | 西欧字符集 |
ISO-8859-15 | 西欧字符集扩展 |
UTF-8 | 兼容ASCII的宽字节字符集 |
cp1252 | 西欧字符集,Windows系统默认 |
BIG5 | 繁体中文,用于中国台湾省 |
GB2312 | 简体中文,用于中国大陆 |
BIG5-HKSCS | 繁体中文扩展,用于中国香港 |
Shift_JIS | 日文 |
EUCJP | 日文 |
下面的示例中,首先使用htmlentities()函数得到一个HTML语句的显示字符串,然后再用html_entity_decode()函数重新把显示字符串转回HTML元素。运行结果如图3.1所示。
1
2
3
4
5
6
7
8
图3.1 PHP生成HTML元素示例
注意 | 函数html_entity_decode()只支持PHP4.0.3及以上版本。 |
除上面所提到的3个函数之外,用于HTML元素操作的函数还包括nl2br()、get_html_translation_table()等,功能与上述函数类似,本书不再一一详述。
3.1.4 分解字符串
分解字符串是指把一个字符串通过特殊的符号分解为许多子串。例如,时间字符串“2005-01-0112:59:59”可以利用符号“-”、空格和“:”分解为年月日时分秒具体的值。PHP提供了下列函数完成类似功能:
其中,参数pattern指定了作为分解标识的符号;str为待操作的原始串;第3个可选参数limit为返回子串个数的最大值,缺省时为全部返回。函数的返回值为数组,将在3.2节对其进行介绍。此处,可以暂时把函数返回值理解为多个子串。
下面的示例可以把字符串“2005-01-0112:59:59”分解为年月日时分秒子串。
1
2
3
4
5
6
上例将输出“2005年01月01日12时59分59秒”。第4行使用split函数把时间分解,分解的标识符包括“-”、空格和“:”,在第5行将其输出。
除split之外,功能相似的函数还包括preg_split(),explode(),implode(),chunk_split()和wordwrap()等。
3.1.5 格式化字符串
格式化字符串用于按一定的格式输出含有许多变量的文本,是最常用的一种操作。PHP的fprintf()函数完成这个功能,习惯使用C语言的读者肯定对其感到熟悉。函数原型为:
参数format是转换后的格式,各个变量都以“%”后的字符规定其格式,后面的多个参数以此对应于format中的“%”处。下面示例格式化浮点数的小数部分。
1
2
3
4
5
6
7
8
9
10
第6行通过算术运算,得到$money的值为123.1;而在第8行通过sprintf中的%01.2定义其格式为显示小数点后两位。
除sprintf()之外,常用于格式化数据的函数还有printf()、sprintf()、sscanf()、fscanf()、vsprintf()和number_format()等。
获取子串是指从一个串中获取其中连续的一部分。例如,从串“2005-01-0112:59:59”中取得时间串。PHP提供了两个函数来获取或替换串的某一部分:
下面的示例中,首先利用substr()获取串“2005-01-0112:59:59”的时间信息,然后使用substr_replace()函数将年份信息改为“2006”:
1
2
3
4
5
6
7
8
3.1.7 定位字符
定位字符是指寻找某个字符在串中最先出现的位置,函数strpos()可以完成此功能。
1
2
3
4
5
6
7
示例第4行使用strpos()获取了字符’@’的位置,然后在第5行使用substr()得到用户名子串信息。
3.1.8 求串长度
求串长度也是常用的操作,所使用的函数为strlen():int strlen( string str)。
这个函数很简单,返回字符串str的长度。仍以上一小节的例子为例,从电子邮件串中替换用户的名字,即改为lisi@php.net。
1
2
3
4
5
6
7
8
3.1.9 获取ASCII编码
把字符转化为ASCII编码在实际应用中有时是很有用的,例如,字符串在数据库中以二进制形式存放,而需要数据获取函数返回ASCII码串时,就需要把其转化为字符串显示。PHP提供的转换ASCII码和字符的函数有以下两种。
二者的使用参考下例。
1
2
3
4
5
6
7
3.1.10 比较字符串
字符串的比较规则是按照字典排序方法,排在前面的小于后面的。如同在一本英语词典中,后面的词条大于前面的词条。PHP实现字符串比较的函数如下。
1
2
3
4
5
6
7
除strcmp()之外,具有字符串比较或排序功能的函数还strcasecmp(),strncmp(),strncasecmp(),strnatcasecmp(),strstr(),natsort()和natcasesort()。
3.1.11 大小写转换
比较两个字符串是否在不区分大小写时相等,仅仅使用上一小节的strcmp()函数就不行了,这时可将两个字符串同时转换为大写或小写,然后再进行比较即可。例如,在判断网站登录的用户名和密码(不区分大小写时)时,常需要这样。PHP实现字符串大小写转换的函数如下。
参考下例。
1
2
3
4
5
6
7
8
9
10
11
3.1.12 小结
字符串是PHP中应用最为广泛的数据类型,其操作也种类繁多。PHP4及以上版本提供了五十多个内置的字符串操作函数,熟练地使用这些函数,是使用PHP的重要内容。本节介绍了其中最为常用的大部分函数,其余未能涉及的部分,请读者在开发或学习过程中参考PHP函数手册。