/**
* Preprocess.
*
* @param string $string
*
* @return string
*/
protected function prepare($string)
{
$string = preg_replace_callback('~[a-z0-9_-]+~i', function ($matches) {
return "\t".$matches[0];
}, $string);
return preg_replace("~[^\p{Han}\p{P}\p{Z}\p{M}\p{N}\p{L}\t]~u", '', $string);
}
今天在看laravel的一个汉语转拼音的扩展包的时候,遇到这么一段代码,有两个地方看不懂。
第一个 正则中用的 ~~ 符号
看完后没有查阅到任何可以帮助到我的资料,于是经过实验后发现~和/的作用一样,表示这是一个正则表达式的定界符。
第二个 最后一段正则\p{Han}\p{P}
查看了php 官方手册
http://php.net/manual/zh/regexp.reference.unicode.php
里面的解释还是有些一知半解的感觉,没有理解其中的一段话(可能是翻译不太贴切导致的)
Unicode 字符集在具体文字中定义。使用文字名可以匹配这些字符集中的一个字符。例如:
\p{Greek}
\P{Han}
经实验,理解为可以匹配某种语言的一个字符。Han就表示中文