Python爬虫学习笔记(补充:正则表达式基础:Re库)

常用正则表达式

 

re.match():只能从字符串开头匹配,返回第一和符合的re.match():只能从字符串开头匹配,返回第一个符合的

import re
content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
#^:开头为Hello\s:匹配空白,\d:匹配数字,后面加{4}表示4d/w:匹配字母和下划线
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}',content)
print(result) #输出结果
print(result.group()) #输出匹配到的内容
print(result.span())#输出匹配的范围

 

 

#匹配目标,部分匹配,利用()匹配1234567
import re
content = 'Hello 1234567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s(\d+)\sWorld',content)
print(result) #输出结果
print(result.group()) #''中的所有内容
print(result.group(1)) #输出完整匹配到的内容
print(result.span())#输出匹配的范围

 

import re
content ='Hello 123 4567 World_This is a Regex Demo'
result = re.match('Hello.*Demo$',content) #.代表匹配除换行的字符,*代表匹配前面的字符无限次$表示结束
print(result)
print(result .group())
print(result.span())

 

 

#贪婪匹配,目的为了选取1234567
import re
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$',content)#.*匹配了最多字符,但是为(\d+).*留一位7,所以结果只有7
print(result)
print(result.group(1))

 

 

#非贪婪匹配,目的为了选取1234567
import re
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$',content)#.*?遇到空格停止匹配字符,为(\d+).*留下1234567,所以结果1234567但是.*?不宜放在结尾
print(result)
print(result.group(1))

 

#匹配换行符
import re
content = '''Hello 1234567 World_This'
is a Regex Demo'''
result = re.match('^He.*?(\d+).*Demo$',content,re.S)#re.S匹配包括换行符在内的所有字符
print(result)
print(result.group(1))

常用修饰符

 

 

遇到匹配的字符与特殊字符相同,在前面加/转移即可,例如/.为匹配.

 

re.search():从任意位置开始,返回第一个符合的

#r.search()
import re
content = 'Extra string Hello 1234567 World_This is a Regex Demo Extra string'
result = re.search('Hello.*?(\d+).*?Demo',content)
print(result)

 

re.findall():从任意位置开始,返回所有符合的为列表类型,用循环逐个获取

 

re.sub():用b替换所有a

#把所有数字删掉

import re

contents ='54aKS4yrsoiRS4ixSL2g'

content = re.sub('\d+,'',contents)

print(content)

 

re.compile():将正则字符串编译成正则表达式对象,方便之后使用

#删掉所有日期中的时间

import re

contentl ='2016 12 15 12:00'

content2 = '2016-12-17 12:55 ’

content3 = '2016-12-22 13:21'

pattern = re.compile('\d{2}:\d{2}') 

resultl = re.sub(pattern, '', content1)

result2 = re.sub(pattern ,’’,content2)

result3 = re.sub(pattern,”,content3)

print(result1,result2,result3)

 

结果:2016-12-15 2016-12-17 2016-12-22 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值