python正则表达式学习 笔记

边界匹配:
使用^和$放在开头和结尾进行全匹配。

^$与\A \Z的区别:^从行开始处匹配,$从行结束处开始匹配;\A从字符串开始处匹配,\Z从字符串结束处匹配。


分组匹配:

使用()进行分组,使用\number对之前的分组进行使用,

例如:

import re
ma = re.match(r'<([\w]+>)\1','<book>book>')

使用(?P<name>)对分组取别名,方便在后续的使用。使用的格式为(?P=name)

例如:

ma = re.match(r'<(?P<mark1>[\w]+>)[\w]+</(?P=mark1)','<book>python</book>')

re模块的其他函数:

search函数。

str1 = 'wtf11111'
str2 = 'numa = 9, numb = 10'
info = re.search(r'\d+',str1)
info.group()
>>>'11111'

info = re.search(r'\d+',str2)
info.group()
>>>'9'


可知search函数无法找到所有的数字,所可以使用findall来找到所有数字。

info = re.findall('\d+',str2)
info
>>>['9','10']
sum([int(x) for x in info])
>>>19

sub:替换匹配的字符串

sub(pattern,replace,string,count=0,flag=0)

举例来说:

str3 = 'num = 1000'
info = re.sub(r'\d+','5000',str3)
info
>>>'num = 5000'

如果想要实现类似于数字加法的功能,可以使用函数卸载replace的位置。

def add_1(match):
	val = match.group()
	num = int(val)+1
	return str(num)
re.sub(r'\d+',add_1,str3)
>>>'num = 1001' 
re.sub(r'\d+',add_1,str3)
>>>'num = 1002' 

实现文本分割,可用split函数:

str4 = 'classed:C C++ Java python'
re.split(r':| ', str4) #分割冒号或空格
>>>['classes','C','C++','Java','python']

使用python进行简单的网页抓取

import re
import urllib2
req = urllib2.urlopen('http://image.baidu.com/')
buf = req.read()
listurl = re.findall(r'http:.+\.jpg', buf)
i = 0
for url in listurl:
	f = open(str(i)+'.jpg','wb')	#二进制写入到文件中
	req = urllib2.urlopen(url)
	buf = req.read()
	f.write(buf)
	i = i + 1
	f.close()













  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值