点击上方“中兴开发者社区”,关注我们
每天读一篇一线开发者原创好文
【摘要】
多个市场要求无线4G网管全面支持IPv6,在开发过程中,遇到大量需要做IPv6校验的地方,本文通过正则表达式解决IPv6校验的问题,来介绍正则表达式最基本的用法,帮助大家入门,打消对正则表达式的心理恐惧。
【关键词】
IPv6,正则表达式
1 背景
在学习正则表达式时,有一个美式笑话:
“Some people, when confronted with a problem, think “I know, I’ll use regular expressions.” Now they have two problems.”
当你意识到一个问题可以用正则表达式来解决时,你就有两个问题了,因为正则表达式本身就是一个big problem。2012年6月6日,全球范围内的IPv6网络正式启动,IPv6的应用已经是大势所趋。本文通过正则表达式解决IPv6校验的问题,来介绍正则表达式最基本的用法,帮助大家入门。
正则表达式(Regular expressions)本质上是一个微小的且高度专业化的编程语言,它被嵌入到高级语言中供程序员使用。正则表达式通过指定一些规则来描述那些你希望匹配的字符串集合,比如Email地址,IP地址。正则表达式的强大之处在于一些特殊符号的应用,特殊符号定义了字符集合、子组匹配、模式重复次数。如果没有这些特殊字符,正则表达式就和大多数文本编辑器中的Ctrl+F一样平庸,仅仅只是匹配纯字符而已。
2 实践情况
2.1 正则表达式特殊字符说明
正则字符包括保留字(. ^ $ * + ? { } [ ] ( ) \ | )和其它字符,下面列出最常用的正则表达式特殊字符的详细含义:
下边列举了由字符 '\' 和另一个字符组成的特殊含义。注意,'\' + 元字符的组合可以解除元字符的特殊功能
2.2 正则表达式特殊字符的4个角色
为方便记忆,可以按字符的功能,分为4个角色:
2.3 常用正则表达式
2.4 正则表达式在高级语言中的应用
以python中的re模块和java中的java.util.regex为例,做一个对比,展示正则表达式在高级语言中的一些常用用法。
2.5 IPv4表示法
IP地址的长度为32b(bit),分为4段,每段8位,用十进制数字表示,每段数字范围为0~255,段与段之间用英文句点“.”隔开。例如:某台计算机IP地址为111.22.33.4。
分析IP地址的组成特点:250-255、200-249、0-199。
这三种情况可以分开考虑:
250-255:三位数,百位是2,十位是5,个位是0~5,用正则表达式可以写成:25[0-5]
200-249:三位数,百位是2,十位是0~4,个位是0~9,用正则表达式可以写成:2[0-4]\d
0-199:这个可以继续分拆:
l 0-9: 一位数,个位是0~9,用正则表达式可以写成:\d
l 10-99: 二位数,十位是1~9,个位是0~9,用正则表达式可以写成:[1-9]\d
l 100-199:三位数,百位是1,十位是0~9,个位是0~9,用正则表达式可以写成:1\d{2}
于是0-99的正则表达式可以合写为[1-9]?\d,那么0-199用正则表达式就可以写成(1\d{2})|([1-9]?\d),这样0~255的正则表达式就可以写成(25[0-5]|2[0-4]\d|((1\d{2})|([1-9]?\d)))
最后,后面3段加上句点.可以使用{3}重复得到,得到IP地址的正则表达式,可以写成如下形式,2种均可:
2.6 IPv6表示法
IPv6的地址长度为128b(bit) ,是IPv4地址长度的4倍。采用十六进制表示。IPv6有3种表示方法:
分析IPv6地址的特点,可以归纳如下: