Python爬虫学习笔记(补充：正则表达式基础：Re库)

最新推荐文章于 2022-03-30 17:31:15 发布

二叉叔

最新推荐文章于 2022-03-30 17:31:15 发布

阅读量220

点赞数

分类专栏： Python爬虫文章标签：爬虫 re库补充正则表达式

本文链接：https://blog.csdn.net/qq_33360009/article/details/104176771

版权

Python爬虫专栏收录该内容

42 篇文章 2 订阅

订阅专栏

常用正则表达式

re.match():只能从字符串开头匹配，返回第一和符合的re.match():只能从字符串开头匹配，返回第一个符合的

import re
content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
#^:开头为Hello，\s：匹配空白，\d：匹配数字,后面加{4}表示4个d，/w:匹配字母和下划线
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}',content)
print(result) #输出结果
print(result.group()) #输出匹配到的内容
print(result.span())#输出匹配的范围

#匹配目标，部分匹配,利用()匹配1234567
import re
content = 'Hello 1234567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s(\d+)\sWorld',content)
print(result) #输出结果
print(result.group()) #''中的所有内容
print(result.group(1)) #输出完整匹配到的内容
print(result.span())#输出匹配的范围

import re
content ='Hello 123 4567 World_This is a Regex Demo'
result = re.match('Hello.*Demo$',content) #.代表匹配除换行的字符，*代表匹配前面的字，符无限次，$表示结束
print(result)
print(result .group())
print(result.span())

#贪婪匹配，目的为了选取1234567
import re
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$',content)#.*匹配了最多字符，但是为(\d+).*留一位7，所以结果只有7
print(result)
print(result.group(1))

#非贪婪匹配，目的为了选取1234567
import re
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$',content)#.*？遇到空格停止匹配字符，为(\d+).*留下1234567，所以结果1234567，但是.*?不宜放在结尾
print(result)
print(result.group(1))

#匹配换行符
import re
content = '''Hello 1234567 World_This'
is a Regex Demo'''
result = re.match('^He.*?(\d+).*Demo$',content,re.S)#re.S匹配包括换行符在内的所有字符
print(result)
print(result.group(1))

常用修饰符

遇到匹配的字符与特殊字符相同，在前面加/转移即可，例如/.为匹配.

re.search():从任意位置开始，返回第一个符合的

#r.search（）
import re
content = 'Extra string Hello 1234567 World_This is a Regex Demo Extra string'
result = re.search('Hello.*?(\d+).*?Demo',content)
print(result)

re.findall()：从任意位置开始，返回所有符合的为列表类型，用循环逐个获取

re.sub():用b替换所有a

#把所有数字删掉

import re

contents ='54aKS4yrsoiRS4ixSL2g'

content = re.sub('\d+,'',contents)

print(content)

re.compile():将正则字符串编译成正则表达式对象，方便之后使用

#删掉所有日期中的时间

import re

contentl ='2016 12 15 12:00'

content2 = '2016-12-17 12:55 ’

content3 = '2016-12-22 13:21'

pattern = re.compile('\d{2}:\d{2}')

resultl = re.sub(pattern, '', content1)

result2 = re.sub(pattern ，’’,content2)

result3 = re.sub(pattern,”,content3)

print(result1,result2,result3)

结果：2016-12-15 2016-12-17 2016-12-22