正则表达式详解

正则表达式

正则表达式在线测试网站https://tool.oschina.net/regex

正则表达式概念

正则表达式是用来简洁表达一组字符串的表达式

  • 通用的字符串表达框架
  • 简洁表达一组字符串的表达式
  • 针对字符串表达“简洁”和“特征”思想的工具
  • 判断某字符串的特征归属

正则表达式在文本处理中十分常用

  • 表达文本类型的特征(病毒、入侵等)
  • 同时查找或替换一组字符串
  • 匹配字符串的全部或部分

正则表达式的使用

  • 编译:将符合正则表达式语法的字符串转换成正则表达式特征。

正则表达式语法

正则表达式的常用操作符
操作符说明实例
.表示任何单个字符
[ ]字符集,对单个字符给出取值范围[abc]表示a、b、c,[a-z]表示a到z单个字符
[^ ]非字符集,对单个字符给出排除范围[^abc]表示非a或b或c的单个字符
*前一个字符0次或无限次扩展abc*表示ab、abc、abcc、abccc等
+前一个字符1次或无限次扩展abc+表示abc、abcc、abccc等
前一个字符0次或1次扩展abc?表示ab、abc
|左右表达式任意一个abc|def表示abc、def
{m}扩展前一个字符m次ab{2}c表示abbc
{m,n}扩展前一个字符m至n次(含n)ab{1,2}c表示abc、abbc
^匹配字符串开头^abc表示abc且在一个字符串的开头
$匹配字符串结尾abc$表示abc且在一个字符串的结尾
( )分组标记,内部只能使用|操作符(abc)表示abc,(abc|def)表示abc、def
\ds数字等价于[0-9]
\wc单词字符,等价于[A-Z a-z 0-9]
正则表达式语法实例

[外链图片转存失败(img-rYtgWRvH-1565059730574)(D:\学习笔记\1564989668496.png)]

[外链图片转存失败(img-UaODDGiy-1565059730577)(D:\学习笔记\1564989906659.png)]

Re 库的基本使用

正则表达式的表示类型
  • raw string 类型 (原生字符串类型)

[外链图片转存失败(img-pe52ryuA-1565059730579)(D:\学习笔记\1564990551455.png)]

  • string 类型,更繁琐。
Re 库主要功能函数
函数说明
re.search()在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
re.match()从一个字符串的开始位置起匹配正则表达式,返回match对象
re.findall()搜索字符串,以列表类型返回全部能匹配的子串
re.split()将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
re.finditer()搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象
re.sub()在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串
  • 函数式用法:一次操作
rst = re.search(r'[1-9]\d{5}','BIT 100081')
  • 面向对象用法:编译后的多次操作
pat = re.compile(r'[1-9]\d{5}') # 将正则表达式的字符串形式编译成正则表达式对象
rst = pat.search('BIT 100081')
修饰符
修饰符描述
re.I使匹配对大小写不敏感
re.L做本地化识别(locale-aware)匹配
re.M多行匹配,影响^和$
re.S使.匹配包括换行在内的所有字符
re.U根据Unicode字符集解析字符。这个标志影响\w、\W、\b和\B
re.X该标志通过给予你更灵活的格式以便你将正则表达式写的更易于理解
Re库的match对象
  • 属性
属性说明
.string待匹配的文本
.re匹配时使用的pattern对象(正则表达式)
.pos正则表达式搜索文本的开始位置
.endpos正则表达式搜索文本的结束位置
  • 方法
方法说明
.group(0)获得匹配后的字符串
.start()匹配字符串在原始字符串的开始位置
.end()匹配字符串在原始字符串的结束位置
.span()返回(.start(),.end())
Re库的贪婪匹配和最小匹配
贪婪匹配

Re库默认采用贪婪匹配,即输出匹配最长的子串

>>> import re
>>> match = re.search(r'PY.*N','PYANBNCNDN')
>>> match.group(0)
    'PYANBNCNDN'
最小匹配
>>> import re
>>> match = re.search(r'PY.*?N','PYANBNCNDN')
>>> match.group(0)
    'PYAN'
操作符说明
*?前一个字符0次或无限次扩展,最小匹配
+?前一个字符1次或无限次扩展,最小匹配
??前一个字符0次或1次扩展,最小匹配
{m,n}?扩展前一个字符m至n次(含n),最小匹配

常用正则表达式公式总结

一、校验数字的表达式

  1. 数字:
^[0-9]\*$
  1. n位的数字:
^\d{n}$
  1. 至少n位的数字:
^\d{n,}$
  1. m-n位的数字:
^\d{m,n}$
  1. 零和非零开头的数字:
^(0|[1-9][0-9]\*)$
  1. 非零开头的最多带两位小数的数字:
^([1-9][0-9]\*)+(\.[0-9]{1,2})?$
  1. 带1-2位小数的正数或负数:
^(\-)?\d+(\.\d{1,2})$
  1. 正数、负数、和小数:
^(\-|\+)?\d+(\.\d+)?$
  1. 有两位小数的正实数:
^[0-9]+(\.[0-9]{2})?$
  1. 有1~3位小数的正实数:
^[0-9]+(\.[0-9]{1,3})?$
  1. 非零的正整数:
^[1-9]\d\*$ 或 ^([1-9][0-9]\*){1,3}$ 或 ^\+?[1-9][0-9]\*$
  1. 非零的负整数:
^\-[1-9][]0-9"\*$ 或 ^-[1-9]\d\*$
  1. 非负整数:
^\d+$ 或 ^[1-9]\d\*|0$
  1. 非正整数:
^-[1-9]\d\*|0$ 或 ^((-\d+)|(0+))$
  1. 非负浮点数:
^\d+(\.\d+)?$ 或 ^[1-9]\d\*\.\d\*|0\.\d\*[1-9]\d\*|0?\.0+|0
  1. 非正浮点数:
^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d\*\.\d\*|0\.\d\*[1-9]\d\*))|0?\.0+|0
  1. 正浮点数:
^[1-9]\d\*\.\d\*|0\.\d\*[1-9]\d\*$ 或 ^(([0-9]+\.[0-9]\*[1-9][0-9]\*)|([0-9]\*[1-9][0-9]\*\.[0-9]+)|([0-9]\*[1-9][0-9]\*))$
  1. 负浮点数:
^-([1-9]\d\*\.\d\*|0\.\d\*[1-9]\d\*)$ 或 ^(-(([0-9]+\.[0-9]\*[1-9][0-9]\*)|([0-9]\*[1-9][0-9]\*\.[0-9]+)|([0-9]\*[1-9][0-9]\*)))$
  1. 浮点数:
^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d\*\.\d\*|0\.\d\*[1-9]\d\*|0?\.0+|0)$

二、校验字符的表达式

  1. 汉字:
^[\u4e00-\u9fa5]{0,}$
  1. 英文和数字:
^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
  1. 长度为3-20的所有字符:
^.{3,20}$
  1. 由26个英文字母组成的字符串:
^[A-Za-z]+$
  1. 由26个大写英文字母组成的字符串:
^[A-Z]+$
  1. 由26个小写英文字母组成的字符串:
^[a-z]+$
  1. 由数字和26个英文字母组成的字符串:
^[A-Za-z0-9]+$
  1. 由数字、26个英文字母或者下划线组成的字符串:
^\w+$ 或 ^\w{3,20}$
  1. 中文、英文、数字包括下划线:
^[\u4E00-\u9FA5A-Za-z0-9_]+$
  1. 中文、英文、数字但不包括下划线等符号:
^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
  1. 禁止输入含有~的字符:
[^~\x22]+

三、特殊需求表达式

  1. Email地址:
^\w+([-+.]\w+)\*@\w+([-.]\w+)\*\.\w+([-.]\w+)\*$
  1. 域名:
[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
  1. InternetURL:
[a-zA-z]+://[^\s]\* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]\*)?$
  1. 手机号码:
^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
  1. 国内电话号码(0511-4405222、021-87888822):
\d{3}-\d{8}|\d{4}-\d{7}
  1. 电话号码正则表达式(支持手机号码,3-4位区号,7-8位直播号码,1-4位分机号):
 ((\d{11})|^((\d{7,8})|(\d{4}|\d{3})-(\d{7,8})|(\d{4}|\d{3})-(\d{7,8})-(\d{4}|\d{3}|\d{2}|\d{1})|(\d{7,8})-(\d{4}|\d{3}|\d{2}|\d{1}))$)
  1. 身份证号(15位、18位数字),最后一位是校验位,可能为数字或字符X:
(^\d{15}$)|(^\d{18}$)|(^\d{17}(\d|X|x)$)
  1. 帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):
^[a-zA-Z][a-zA-Z0-9_]{4,15}$
  1. 密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):
^[a-zA-Z]\w{5,17}$
  1. 强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在 8-10 之间):
^(?=.\*\d)(?=.\*[a-z])(?=.\*[A-Z])[a-zA-Z0-9]{8,10}$
  1. 强密码(必须包含大小写字母和数字的组合,可以使用特殊字符,长度在8-10之间):
^(?=.\*\d)(?=.\*[a-z])(?=.\*[A-Z]).{8,10}$
  1. 日期格式:
^\d{4}-\d{1,2}-\d{1,2}
  1. 一年的12个月(01~09和1~12):
^(0?[1-9]|1[0-2])$
  1. 一个月的31天(01~09和1~31):
^((0?[1-9])|((1|2)[0-9])|30|31)$
  1. xml文件:
^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$
  1. 中文字符的正则表达式:
[\u4e00-\u9fa5]
  1. 空白行的正则表达式:
\n\s\*\r (可以用来删除空白行)
  1. HTML标记的正则表达式:
<(\S\*?)[^>]\*>.\*?|<.\*? /> ( 首尾空白字符的正则表达式:^\s\*|\s\*$或(^\s\*)|(\s\*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式)
  1. 腾讯QQ号:
[1-9][0-9]{4,} (腾讯QQ号从10000开始)
  1. 中国邮政编码:
[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)
  1. IP地址:
((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值