php 正则匹配unicode,php正则表达式 unicode编码属性

最新推荐文章于 2023-02-11 17:01:50 发布

大章鱼啊没秘密

最新推荐文章于 2023-02-11 17:01:50 发布

阅读量257

点赞数

文章标签： php 正则匹配unicode

/**

* Preprocess.

* @param string $string

* @return string

protected function prepare($string)

{

$string = preg_replace_callback('~[a-z0-9_-]+~i', function ($matches) {

return "\t".$matches[0];

}, $string);

return preg_replace("~[^\p{Han}\p{P}\p{Z}\p{M}\p{N}\p{L}\t]~u", '', $string);

}

今天在看laravel的一个汉语转拼音的扩展包的时候，遇到这么一段代码，有两个地方看不懂。

第一个正则中用的 ~~ 符号

看完后没有查阅到任何可以帮助到我的资料，于是经过实验后发现~和/的作用一样，表示这是一个正则表达式的定界符。

第二个最后一段正则\p{Han}\p{P}

查看了php 官方手册

http://php.net/manual/zh/regexp.reference.unicode.php

里面的解释还是有些一知半解的感觉，没有理解其中的一段话(可能是翻译不太贴切导致的)

Unicode 字符集在具体文字中定义。使用文字名可以匹配这些字符集中的一个字符。例如：

\p{Greek}

\P{Han}

经实验，理解为可以匹配某种语言的一个字符。Han就表示中文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注