正则表达式
安装正则表达式库:
pip install re
再杂乱的页面中提取出我们想要的文字,这里我们来使用正则表达式。
正则表达式是用来匹配字符串非常强大的工具,再其他编程语言中同样具有正则表达式的概念,利用正则表达式,我们可以非常简单的提取去我们想要的内容。
正则表达式的规则附后:正则语法下载地址
#提取中文:[\u4e00-\u9fa5]
#(.+)
提取的内容
#\s*
多个换行
案例抓取内容如下(含源码):
一、相关解释
正则表达式的贪婪模式与非贪婪模式
例如:正则表达式”ab*"
如果用与查找"abbbc"
,将找到“abbb”
,而如果使用非贪婪的数量词“ab*?"
,将找到”a"
.
常用的方法与案例
1.match()
import re
str = "I Study Python3.8 Everyday"
获取I:
m = re.match(r'I',str) #前面表达式,后面字符串
m.group()
m = re.match(r'\w',str)
m.group()
m = re.match(r'.',str)
m.group()
m = re.match(r'i',str,re.I) #不区分大小写
m.group