php邮箱正则下划线,正则表达式-邮箱正则解析引导

最新推荐文章于 2022-05-19 11:29:27 发布

蕾拉聊以色列

最新推荐文章于 2022-05-19 11:29:27 发布

阅读量646

点赞数

文章标签： php邮箱正则下划线

1，强推一个github上学习正则的项目

2，常见的邮箱格式

1，数字 + @ + 数字 + .com：111222335556666@163.com

2，数字、字母 + 下划线 + @ + 数字|字母 + .com：zhangsan_123@163(qq).com

3，数字、字母、下划线 + @ + 数字、字母、中划线- + .com：zhangsan_123@company-china.com

补充说明：为了下文便于理解，假定上述邮箱字符串作以下拆分：

1)第一部分：@符号之前的内容

2)第二部分：@符号之后，.符号之前的部分

3)第三部分：.符号之后的部分(虽然上述链接格式是以顶级域名com为结尾，但并不排除出现类似.com.cn这样的结构)

3，正则解析

3.0，前言

1，基于每个人的思维模式，理解能力等因素，为了使您的正则学习不误入歧途，请确保在参考了一定资料(如菜鸟教程、或是上述推荐的github项目)之后，有了初步的基础后，再参考本文，作进一步的参考印证会更好一点，请认真考虑我的提议！

2，本文适合正则初学者阅读；本意还是为了引导初学者在学习过程中如何去思考构造及优化正则表达式；本文所用的例子并不一定全部涵盖现实中所有的邮箱格式。

故在阅读过程中，希望您可以尝试考虑本文没有提及的地方，以及该如何优化？同时，也欢迎您在下方留言处予以指正，非常感谢！

3，本文篇幅略长，您最好是有时间了跟着操作一遍比较好。

4，部分元字符因为偷懒的缘故，并未一一列出，请综合参考各方资料。

3.1，思考题：如何(仅)匹配数字或字母其中一种情况？

1，会的同学请略过

2，相关元字符：

\d - 表示[0-9]的整数数字；

\w - 表示字母、数字、下划线

+ - 表示该符号(即符号+)前出现的子表达式需要至少出现1次；

* - 表示该符号前出现的子表达式需要至少出现0次

？ - 表示该字符前出现的子表达式可以出现0次或1次

^ - 匹配输入字符的开始位置

$ - 匹配输入字符的结束位置

?: - 匹配 pattern 但不获取匹配结果

x|y: - 匹配x或匹配y

针对上述思考题，我将尝试分步进行校验：

1)如何仅匹配数字？

匹配单个整数的元字符是\d，匹配多个整数数字字符串可以用\d+(当然，*其实也是可以的，显然元字符+的匹配结果是元字符*的匹配结果的子集)；那如何保证整个字符串只能出现数字呢？答案是用元字符^和$去限制输入值；

也即是说，^与\d结合告诉程序需要排除输入字符的开始位置不为数字的情况($符号同理)。

同时满足这两个限制才会输出匹配结果(至于中间不为数字的情况嘛，该表达式走不下去，因为当判断到非数字的情况的时候，意味着\d+匹配结束，然后$符号发现结束位置不为数字，匹配失败；您可以试着解除$元字符的限制，看看中间不为数字的匹配结果)。

2)如何仅匹配字母？

构造过程同上。需要注意的是，在当前限制下，\w不再适合用来匹配字母，因为\w同时还能匹配数字和下划线。

所以我尝试将之替换为[a-zA-Z]。

3)如何(仅)匹配数字或字母其中一种情况？

将前两步的结果，构造成x|y形式。

4)针对第3步的结果，该如何优化？

需要提醒的是，由于第3步中，我将第1步和第2步中的结果组成了“x|y”这种形式，为了不使这两个子表达式造成歧义，我用了两个小括号将其包裹起来；

于是我面临了一个问题：由于小括号除了通俗意义上的隔离、提高优先级等作用外；它在正则里还有一个作用是收集并存储括号内子表达式的匹配结果。因此，当我并不需要这个子表达式的匹配结果时，我可以用元字符“?:”来实现这个想法。当然，如果您需要用到的话，则并不需要考虑?:元字符的作用。

3.2，数字 + @ + 数字 + .com类：

相关元字符：

\w - 表示字母、数字、下划线

+ - 表示该符号(即符号+)前出现的子表达式需要至少出现1次；

* - 表示该符号前出现的子表达式需要至少出现0次

？ - 表示该字符前出现的子表达式可以出现0次或1次

^ - 略

. - 略

经过上述3.1部分的啰里吧嗦，我想初步的正则表达式并不难配，对吧。

比如：/^(?:\w+@?)+\.[a-zA-Z]+/

接着，请跟我一起来拆解下上述的表达式：

1)^(?:\w+@?)+：表述了我想匹配以\w开头，且形如:zhangsan_1@163(qq)这样格式的字符串

2)\.：表述匹配普通字符.

3)[a-zA-Z]+: 最后一部分\w+表述我想匹配最后的域名部分(当然，形如.com.cn暂时不在讨论范围内)

通过拆解表达式，您可以发现，上述部分出现了3.2中第5步的错误，即\w并不光匹配字母、数字，还匹配下划线。

而下划线出现在第一部分，即@符号之前，可以说是符合本回合邮箱构造规则；但是，若出现在@符合之后的第二部分，那就大为不妥了，而上述表达式显然，会出现以下匹配结果：

668e85df3c97

/^(?:\w+@?)+\.\w+/表达式的异常匹配-1

668e85df3c97

/^(?:\w+@?)+\.\w+/表达式的异常匹配-2

由于上述的表达式对于第二部分内容(@字符之后，.字符之前)，匹配的并不尽如人意。所以子表达式“^(?:\w+@?)+”需要对第二部分的匹配进行优化。

既然问题出在第二部分，那么意味着，我在3.2中分析时，对@符号前后子表达式的整合(即将xx@xx整合为(xx@?)+这种形式)就不攻自破了。

那么，对于第二部分的匹配期望，我现在需要构造一个正则表达式，使得能且仅能匹配(纯数字或纯字母表达式的)其中一种情况，即要么匹配类似ww这样的字符串，要么匹配111这样的字符串，其他字符串暂且假定非法。

于是，您会发现，我在3.1中已经引导您做过类似的校验。然后，您可能会犯我之前犯过的错误，即简单粗暴地将其添加到正则表达式中，形成这样的式子：/^\w+@(?:^\d+$|^[a-zA-Z]+$)\.[a-zA-Z]+/;

然后您会发现，这下不仅仅是错误的字符串无法通过校验，正确的字符串也不行了！

于是，我希望您能跟我一起来重温一下元字符^和元字符$的概念：前者匹配输入的起始位置，后者匹配输入的结束位置；所以，这就是我在3.1中加入起始和结束元字符可以生效，而在3.3中失效的原因(因为对于输入者而言，可以人为的理解某一段输入值的开始和结束位置，但对于程序而言，字符串的起始和结束位置是相对于整体而言的，而非局部的某个子串。)

基于上述反思，较为合理的一个正则表达式为：/^\w+@(?:\d+|[a-zA-Z]+)\.[a-zA-Z]+/

3.4，待续......

蕾拉聊以色列

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
php邮箱正则下划线,正则表达式-邮箱正则解析引导

1，强推一个github上学习正则的项目2，常见的邮箱格式1，数字 + @ + 数字 + .com：111222335556666@163.com2，数字、字母 + 下划线 + @ + 数字|字母 + .com：zhangsan_123@163(qq).com3，数字、字母、下划线 + @ + 数字、字母、中划线- + .com：zhangsan_123@company-china.com补充说明...
复制链接

扫一扫