正则笔记

最新推荐文章于 2022-11-30 20:36:52 发布

humanyr

最新推荐文章于 2022-11-30 20:36:52 发布

阅读量101

点赞数

分类专栏：笔记文章标签：正则表达式

本文链接：https://blog.csdn.net/humanyr/article/details/113882273

版权

笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

字符边界
常用字符簇
集合
补集
字符范围
字符簇
找几个
或者
贪婪与非贪婪
采集手机号
后向引用
模式
预查

字符边界

正则表达式其实就是字符串规则表达式
构成：’/正则匹配规则/’

字符	含义
^	匹配字符串的开始
$	匹配字符串的结尾
\b	匹配单词是的开始和结尾（边界）
\B	匹配字符串的非边界

常用字符簇

簇	代表
.（点）	任意字符，不含换行
\w	[a-z A-Z 0-9 _ ]
\W	\w的补集
\s	空白符，包括 \n\r\t\v等
\S	非空白符
\d	[0-9]
\D	非数字

空白符：空格，回车，换行，tap键

集合

$array = array('12345','465156','4564155','546516');
$patt = '/^[123456]{6}$/';
//匹配字符串的开始结尾^$,[]里的是要匹配的字符串集合，{6}指匹配6位数的字符串
foreach ($array as $key => $value) {
	preg_match_all($patt, $value, $matches);
	var_dump($matches);

}

补集

//例[^47]匹配不含4和7的
$array = array('12345','465156','4564155','546516');
$patt = '/^[^37]{6}$/';

foreach ($array as $key => $value) {
	var_dump($value);
	# code...
	preg_match_all($patt, $value, $matches);
	var_dump($matches);
}

字符范围

$str = 'baidu o2o b2b c2c shuai chou nishishabi';
//$patt = '/\b[a-zA-Z]+\b/';//要找出纯字母组成的单词,+号表示字数不限
$patt = '/\b[a-zA-Z]{3,}\b/';//要找出至少由3个字母组成的单词,{3,}表示字数>=3

preg_match_all($patt, $str, $matches);
var_dump($matches);

字符簇

// 系统定义好的一些常用集合
// \w [a-zA-Z0-9_]
// \W \w的补集（即匹配不在\w集合内的字符串）
/*$str = 'tommorw is    another day , o2o , you dont bird me i dont bird you';
$patt = '/\W{1,}/';//匹配字数>=1的不为[a-zA-Z0-9_](\w的补集)的字符串
preg_match_all($patt, $str, $matches);
var_dump($matches);

找几个

// *: 匹配前面的子表达式零次或多次
// +: 匹配前面的子表达式一次或多次
// \?:匹配前面的子表达式零次或一次
// {n}:n是一个非负整数，匹配确定的n次
// {n,m}:m和n均为非负整数，其中n<=m,最少匹配n次且最多匹配m次
// {n,} :n是一个非负整数，至少匹配n次
/*$patt = '/[a-zA-Z]{5}/';//匹配5个字母组成的单词
$patt = '/[a-zA-Z]{3,5}/';//匹配3-5个字母组成的单词；
$patt = '/[a-zA-Z]{5,}/';//匹配5个以上字母组成的单词

//案例，某编辑部的键盘坏了，o键弹不出来，经常打出多个0，于是god经常打成good，gooooood，gooooooood，请把这些单词替换成god
//preg_replace($patt,$string,$object)//正则匹配替换
$str = "gooooooood goood god gooooooood";
$patt = '/[o]{1,}/';//这样是把1个以上o替换成一个o，题目是指将goood即g跟d中间的多个o替换成一个o
$patt = '/go+d/';
var_dump(preg_replace($patt, 'god', $str));

或者

//或者：|
$str = 'hello o2o 2b9 250';
//找出纯数字或者纯字母的
$patt = '/\b[a-zA-Z]+\b|\b[0-9]+\b/';
preg_match_all($patt, $str, $matches);
var_dump($matches);

贪婪与非贪婪

//贪婪与非贪婪(?) 正则默认是贪婪模式
//贪婪模式：会尽量多的匹配
//非贪婪模式：在数量（+ * {n,}）限定符后加？，表示非贪婪模式
$str = 'kjsh god goooood goood good ks ks sjd ';
//把g开头d结尾的找出来
$patt = '/g.+d/';//.表示任意字符 这里会将第一个g开始 最后一个d结尾的中间的都匹配出来，这就是贪婪模式。这里得到的是god goooood goood good ks ks sjd
$patt = '/g.+?d/';//加个？表示非贪婪模式，这样能够将每一个g开头d结尾的串一个一个以数组的形式返回
preg_match_all($patt, $str, $matches);
var_dump($matches)

采集手机号

$str = '老王电话13800138000, 备用电话18902587413, QQ:258963,emai l:wang@qq.com, 唯一号:10113497912123039';
//手机号正则
$patt = '/\b1[3578]\d{9}\b/';//\d表示集合[0-9];
preg_match_all($patt, $str, $matches);
var_dump($matches);

后向引用

//简化版 先找首尾字母都是t的
$str = 'txt hello,high,bom , mum';
$patt = '/\bt\w+t\b/';
preg_match_all($patt, $str, $matches);
var_dump($matches);
//找首尾字母相同的单词
$str = 'txt hello,high,bom , mum';
$patt = '/\b([a-z])\w+\1\b/';//后向引用：在需要后面引用的集合前后加上（）,后面的\1表示引用第一个（）里取到的字符，如果是\2则表示引用第二个（）里取到的字符
preg_match_all($patt, $str, $matches);
var_dump($matches);

//把手机号中间4位替换为*
$str = '13800138000,13426060134';
$patt = '/(\d{3})\d{4}(\d{4})/';
preg_match_all($patt, $str, $matches);
//var_dump($matches);
var_dump(preg_replace($patt, '\1****\2', $str));//preg_replace也能使用后向引用，能够匹配第一个正则规则的（）

模式

//模式修饰符，可以一定程度上影响正则的解析行为
//i模式:代表正则不区分大小写，'/[a-zA-Z]+/'-->'/[a-z]+/i'
/*$str = "hello WORLD ChiNA";
$patt = '/\b[a-z]+\b/i';
preg_match_all($patt, $str, $matches);
var_dump($matches);
//s模式:单行模式，就代表把整个文件看成一个‘单行’
$str = 'hello WORLD
 ChiNA';
$patt = '/\b.+\b/s';
preg_match_all($patt, $str, $matches);
var_dump($matches);
//u模式：把传入的参数看成是unicode字符集的编码，可以判断中文
//php下正则匹配中文，u模式,\x{4e00}-\x{9fa5}
$str = '三下手机s';
//\x{}:代表表示的是unicode编码而不是字符串
$patt = '/^[\x{4e00}-\x{9fa5}]+$/u';//匹配中文,在unicode表里中文编码从4e00开始到9fa5结束
echo preg_match($patt,$str)?'纯中文':'混合';

预查

//把ing结尾的单词词根部分（即不含ing部分）找出来
//不用预查自己试了下
$str = "hello ,when i am working, do not coming";
$patt = '/\b(\w+)ing\b/'; //出来的数组第一个是匹配结果，第二个就是我们要的词根(第一个引用)了;
//使用预查（?）
//实现原理（基于所在光标）：前瞻（往前看） 断言（判断会是什么） 正预测（是什么样，负预测--不是什么） 零宽度（没有消耗字符）
$patt = '/\b\w+(?=ing\b)/';//判断后面是否是ing结尾的，是则能匹配，第一个\b->单词开头,第二个\b->单词结尾.这样可以直接返回ing前面的单词词根


//把不是ing结尾的单词找出来
//零宽度 负预测 前瞻 断言
$patt = '/\b\w+(?!ing)\w{3}\b/'; //1.要判断是不是ing结尾至少需要3个字符，所以i am 也不符合规则 

//把un开头的单词词根找出来
//零宽度 正预测 回顾（返回来看） 断言
$str = 'luck ,unlucky,state , unhappy';
$patt = '/(?<=\bun)\w+\b/';//<表示往后看，即取un后的词根

//把不是un开头的单词找出来
//零宽度 负预测 回顾（返回来看） 断言
$patt = '/\b\w{2}(?<!un)\w+\b/';

preg_match_all($patt, $str, $matches);
var_dump($matches);

humanyr

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则笔记

正则表达式其实就是字符串规则表达式构成：’/正则匹配规则/’字符边界字符含义^匹配字符串的开始$匹配字符串的结尾\b匹配单词是的开始和结尾（边界）\B匹配字符串的非边界常用字符簇簇代表.（点）任意字符，不含换行\w[a-z A-Z 0-9 _ ]\W\w的补集\s空白符，包括 \n\r\t\v等\S非空白符\d[0-9]\D非数字空白符：空格，回车，换行，tap键.
复制链接

扫一扫