常用正则表达式总结
- 邮箱格式验证
邮箱格式通常为:用户名@域名.后缀,其中用户名可以包含字母、数字、下划线和点号,域名可以包含字母、数字和点号,后缀通常为com、cn、org等。
使用正则表达式可以很方便地验证邮箱格式是否正确:
import re
email = 'example@domain.com'
pattern = r'^\w+@[a-zA-Z0-9]+\.[a-zA-Z]{2,3}$'
result = re.match(pattern, email)
if result:
print('邮箱格式正确')
else:
print('邮箱格式错误')
- 手机号码格式验证
手机号码格式通常为11位数字,以1开头。
使用正则表达式可以很方便地验证手机号码格式是否正确:
import re
phone = '13812345678'
pattern = r'^1\d{10}$'
result = re.match(pattern, phone)
if result:
print('手机号码格式正确')
else:
print('手机号码格式错误')
- IP地址格式验证
IP地址格式通常为四个数字,每个数字的取值范围为0-255,中间用点号分隔。
使用正则表达式可以很方便地验证IP地址格式是否正确:
import re
ip = '192.168.0.1'
pattern = r'^((25[0-5]|2[0-4]\d|[01]?\d\d?)\.){3}(25[0-5]|2[0-4]\d|[01]?\d\d?)$'
result = re.match(pattern, ip)
if result:
print('IP地址格式正确')
else:
print('IP地址格式错误')
- URL格式验证
URL格式通常为协议://域名/路径,其中协议可以为http、https、ftp等,域名可以包含字母、数字和点号,路径可以包含字母、数字、下划线和斜杠。
使用正则表达式可以很方便地验证URL格式是否正确:
import re
url = 'http://www.example.com/path/to/file.html'
pattern = r'^[a-zA-Z]+://[^\s]*$'
result = re.match(pattern, url)
if result:
print('URL格式正确')
else:
print('URL格式错误')
- HTML标签提取
HTML标签通常以<开头,以>结尾,可以使用正则表达式提取HTML标签:
import re
html = '<div class="content">Hello, world!</div>'
pattern = r'<[^>]+>'
result = re.findall(pattern, html)
print(result) # ['<div class="content">', '</div>']
- 中文字符提取
中文字符通常包含汉字、标点符号和空格,可以使用正则表达式提取中文字符:
import re
text = '你好,世界!Hello, world!'
pattern = r'[\u4e00-\u9fa5]+'
result = re.findall(pattern, text)
print(result) # ['你好', '世界']