Python中-正则表达式-说明

最新推荐文章于 2024-03-27 16:00:00 发布

newluxiaob

最新推荐文章于 2024-03-27 16:00:00 发布

阅读量148

点赞数 1

文章标签： Python 正则表达式

本文链接：https://blog.csdn.net/weixin_43435001/article/details/83152219

版权

正则表达式:

(regular expression)
—>>>正则表达式是用来简洁表达一组字符串的表达式
是一个描述字符串模式的对象
正则表达式主要用来验证用户的数据,
以及对文本内容的信息过滤,获取满足条件的内容
这样做的好处是提高匹配效率,减少遍历时间
正则表达式有自己的语法,字符,操作符组成

符号说明

.			表示任何单个字符
[] 			字符集,对单个字符给出取值范围	[abc]表示a,b,c,[a-z]表示a到z单个字符
[^]		非字符集,对单个字符给出排除范围	[^abc]表示非a或b或c的单个字符
*			前一个字符0次或无限次扩展		abc* 表示 ab,abc,abcc,abccc等
+			前一个字符1次或无限次扩展		abc+ 表示 abc,abcc,abccc等
?			前一个字符0次或1次扩展		abc? 表示ab,abc
|			左右表达式任意一个		abc|def 表示 abc,def
{m}		扩展前一个字符m次		ab{2}c 表示 abbc
{m,n}	扩展前一个字符m至n次(含n)	ab{1,2}c 表示abc,abbc
^			匹配字符串开头			^abc表示abc 并且在一个字符串的开头
$			匹配字符串结尾			abc$表示abc 并且在一个字符串的结尾
()			分组标记,内部只能使用|操作符	(abc)表示abc, (abc|def)表示abc,def
\d			数字,等价于[0-9]
\w		单词字符,等价于[A-Z a-z 0-9]

re.search() 在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
re.match() 从一个字符串的开始位置起匹配正则表达式,返回match对象
re.findall() 搜索字符串,以列表类型返回全部能匹配的字符串
re.split() 将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
re.finditer() 搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象
re.sub() 在一个字符串中替换所有匹配正则表达式的字串,返回替换后的字符串

re.search(pattern, string, flags=0)
在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
pattern:正则表达式的字符串或原生字符串表示
string:待匹配字符串
flags:正则表达式使用时的控制标记

import re
#正则的()是用来分组的
match = re.search(r’([0-9])([a-zA-Z])([0-9]*)’, ‘1a2b3cabc123’)
print(match)
print(type(match))

‘’’
group() 用来提取分组截获得字符串 (数字)用来表示分组
r’([0-9])([a-zA-Z])([0-9]*)’ 正则表达式中的3组() 把匹配结果分成3组
group() == group(0) 匹配正则表达式的整体结果
group(1) 表示匹配第一个() 的匹配部分
同理有几个() 就有几个 group()分组
注意,如果正则表达式中没有() 意思明确是没有分组, so group(1) 就会出现错误
‘’’

eg:

if match:
print(match.group(0))# 返回match
print(match.group(1))
print(match.group(2))
print(match.group(3))
print(’-’*50)
print(match[0])
print(match[1])

对文档中所有的文字内容进行正则比对
print(soup.find(text=re.compile(‘sisters’)))
print(soup.find_all(text=re.cpmpile(‘sisters’)))
对文档中所有的属性中指定的属性进行比对
print(soup.find_all(href=re.compile(‘elsie’), id=‘link1’, class_=‘sister’))