正则表达式
概念和作用
- 是一种字符串匹配的模式
作用
- 检查一个字符串是否含有某种子串
- 替换匹配的子串
- 提取某个字符串中匹配的子串
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SSpJnC72-1637572113250)(C:\Users\qinlinjian\Pictures\Camera Roll\Screenshot_20211122_162201_tv.danmaku.bili.jpg)]
re.findall()方法
API
- re.findall(pattern,string,flags=0)(key point)
- 作用:扫描整个string字符串,返回所有与pattern匹配的列表
- 参数:
- pattern:正则表达式
- string:从那个字符串中查找
- flags:匹配模式
- 返回
- 返回string中与pattern匹配的结果列表
常见用法
import re
rs = re.findall('abc','abcfdghfdhd')#普通字符的匹配
rs = re.findall('a.c','asc')
rs = re.findall('a\.c','a.c')# 转义
rs = re.findall('a[bc]d','acdabd')
#预定义的字符集
rs = re.findall('\d','123')
rs = re.findall('\w','asc*%JYHGJ')# 特殊字符*%不会匹配的
print(rs)
re.findall()
import re
# 1. findall方法,返回匹配的结果列表
res = re.findall('\d+','kajsdh13sad154')
print(res)
# 2. findall方法中,flags参数的作用
res = re.findall('a.bc','a\nbc',re.DOTALL)# 这样就可以匹配\n OR re.S
print(res)
# 3. findall方法中分组的使用
rs = re.findall('a.+bc','a\nbc',re.DOTALL)
print(rs)
rs = re.findall('a(.+)bc','a\nbc',re.DOTALL)# 分组,只返回小括号里面的,小括号旁边的是用来定位的
print(rs)
r原串
re.findall(r'\d','a123')
案例
import re
import requests
from bs4 import BeautifulSoup
res = requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia')
home_p = res.content.decode('utf-8')
# print(home_p)
soup = BeautifulSoup(home_p,'lxml')
script = soup.find(attrs={'id':'getListByCountryTypeService2true'})
# print(script.text)# 拿到script标签的内容
txt = script.text
# 使用正则
res = re.findall(r'\[.+\]',txt)[0]
print(res)
的内容
txt = script.text
使用正则
res = re.findall(r’[.+]’,txt)[0]
print(res)