正则表达式:
(regular expression)
—>>>正则表达式是用来简洁表达一组字符串的表达式
是一个描述字符串模式的对象
正则表达式主要用来验证用户的数据,
以及对文本内容的信息过滤,获取满足条件的内容
这样做的好处是提高匹配效率,减少遍历时间
正则表达式有自己的语法,字符,操作符组成
符号说明
. 表示任何单个字符
[] 字符集,对单个字符给出取值范围 [abc]表示a,b,c,[a-z]表示a到z单个字符
[^] 非字符集,对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符
* 前一个字符0次或无限次扩展 abc* 表示 ab,abc,abcc,abccc等
+ 前一个字符1次或无限次扩展 abc+ 表示 abc,abcc,abccc等
? 前一个字符0次或1次扩展 abc? 表示ab,abc
| 左右表达式任意一个 abc|def 表示 abc,def
{m} 扩展前一个字符m次 ab{2}c 表示 abbc
{m,n} 扩展前一个字符m至n次(含n) ab{1,2}c 表示abc,abbc
^ 匹配字符串开头 ^abc表示abc 并且在一个字符串的开头
$ 匹配字符串结尾 abc$表示abc 并且在一个字符串的结尾
() 分组标记,内部只能使用|操作符 (abc)表示abc, (abc|def)表示abc,def
\d 数字,等价于[0-9]
\w 单词字符,等价于[A-Z a-z 0-9]
re.search() 在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
re.match() 从一个字符串的开始位置起匹配正则表达式,返回match对象
re.findall() 搜索字符串,以列表类型返回全部能匹配的字符串
re.split() 将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
re.finditer() 搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象
re.sub() 在一个字符串中替换所有匹配正则表达式的字串,返回替换后的字符串
re.search(pattern, string, flags=0)
在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
pattern:正则表达式的字符串或原生字符串表示
string:待匹配字符串
flags:正则表达式使用时的控制标记
import re
#正则的()是用来分组的
match = re.search(r’([0-9])([a-zA-Z])([0-9]*)’, ‘1a2b3cabc123’)
print(match)
print(type(match))
‘’’
group() 用来提取分组截获得字符串 (数字)用来表示分组
r’([0-9])([a-zA-Z])([0-9]*)’ 正则表达式中的3组() 把匹配结果分成3组
group() == group(0) 匹配正则表达式的整体结果
group(1) 表示匹配第一个() 的匹配部分
同理有几个() 就有几个 group()分组
注意,如果正则表达式中没有() 意思明确是没有分组, so group(1) 就会出现错误
‘’’
eg:
if match:
print(match.group(0))# 返回match
print(match.group(1))
print(match.group(2))
print(match.group(3))
print(’-’*50)
print(match[0])
print(match[1])
对文档中所有的文字内容进行正则比对
print(soup.find(text=re.compile(‘sisters’)))
print(soup.find_all(text=re.cpmpile(‘sisters’)))
对文档中所有的属性中指定的属性进行比对
print(soup.find_all(href=re.compile(‘elsie’), id=‘link1’, class_=‘sister’))