中文可以用正则表达式进行匹配,但是具体匹配方法与中文的编码方式有关:
如果是GBK(GB2312、GB1080),那么中文的编码范围是:
\x80-\xff
如果是UTF-8编码,那么中文的编码范围是:
\u4e00-\u9fa5
那么匹配汉字的正则表达式可以是:
/[\x7f-\xff]+/
或者
/[\u4e00-\u9fa5]+/
例子代码,显示文件中的所有汉字(GBK编码):
<?php
$s=file_get_contents('1.txt');
if (preg_match_all('/[\x7f-\xff]+/', $s, $r)){搜索
for ($i=1;$i<count($r[0]);$i++) echo "$i\t".$r[0][$i]."\n";
}
?>