正则表达式
my2010Sam
这个作者很懒,什么都没留下…
展开
-
#小练习 正则表达式匹配邮箱名称
s='zhg@142.com, ziiwe@163.com,zh__1334@sin.com, zhg223@sina.com, [Master]zhg13@sina.com,[科比]Kobe@NBA.com,James@NBA.net,T-Mac@tech.abc' 要求:输出xxx@xxxxx.xxx 或 [xxx]xxx@xxxx.xxx 格式的邮箱地址,邮箱末尾可以有逗号原创 2013-05-23 16:15:31 · 1090 阅读 · 0 评论 -
python 正则表达式操作指南
python 正则表达式操作指南 以下内容不错 http://wiki.ubuntu.org.cn/Python%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F%E6%93%8D%E4%BD%9C%E6%8C%87%E5%8D %97#.E6.90.9C.E7.B4.A2.E5.92.8C.E6.9B.BF.E6.8D.A2转载 2013-05-28 16:18:26 · 823 阅读 · 0 评论 -
贪婪 vs 不贪婪
当重复一个正则表达式时,如用 a*,操作结果是尽可能多地匹配模式。当你试着匹配一对对称的定界符,如 HTML 标志中的尖括号时这个事实经常困扰你。匹配单个 HTML 标志的模式不能正常工作,因为 .* 的本质是“贪婪”的 #!python >>> s = 'Title' >>> len(s) 32 >>> print re.match('', s).span() (0, 32) >>> pr转载 2013-10-09 15:00:56 · 803 阅读 · 0 评论 -
#小练习 使用正则抓取oschina博客专区首页数据
使用正则抓取oschina博客专区首页数据,包括:博客链接地址、标题、摘要、发布人、发布时间 #coding:utf-8 import urllib2,re def getpage(url): f=urllib2.Request(url) #此时添加header,模拟浏览器访问,否则会报错:HTTPError: HTTP Error 403: Forbidden原创 2013-11-11 17:22:16 · 1341 阅读 · 0 评论 -
提取网易的链接及链接名称
import urllib2,re #读取网页信息 def getcontent(url): request=urllib2.Request(url) f=urllib2.urlopen(request) content= f.read() return content #使用re提取所需信息 def pars_content(url): content原创 2013-11-07 14:02:24 · 1255 阅读 · 0 评论 -
获取函数中的参数
注意此处eval的使用原创 2013-10-16 15:14:37 · 760 阅读 · 0 评论 -
正则 分组group
import re s=r'ht+p://(w{1,3})\.(.*)\.(com)' mo=re.compile(s) ob=mo.search('http://www.python.com') #返回一个MatchObjec 对象 print ob print ob.groups() #以元组形式返回所有的组 print ob.group(0) #默认0,以字符串形原创 2013-05-23 10:40:11 · 743 阅读 · 0 评论 -
正则表达式 断言
转载地址:http://cnn237111.blog.51cto.com/2359144/749047 正则表达式的先行断言和后行断言一共有4种形式: (?=pattern) 零宽正向先行断言(zero-width positive lookahead assertion) (?!pattern) 零宽负向先行断言(zero-width negative lookahead asse转载 2013-05-27 05:57:22 · 1332 阅读 · 0 评论 -
(学习)python非贪婪、多行匹配正则表达式例子
一些regular的tips: 1 非贪婪flag >>> re.findall(r"a(\d+?)", "a23b") # 非贪婪模式 ['2'] >>> re.findall(r"a(\d+)", "a23b") ['23'] 注意比较这种情况: >>> re.findall(r"a(\d+)b", "a23b")转载 2013-08-19 11:21:07 · 19857 阅读 · 2 评论 -
#小练习 从多个文件中提取电话号码
import sys,glob,re,fileinput pattern = r'(\d{3})\D*(\d{3})\D*(\d{4})\D*(\d*)$' ''' 测试数据: 800-555-1212 800 555 1212 800.555.1212 (800) 555-1212 1-800-555-1212 800-555-1212-1234 800-555-12原创 2013-05-28 15:40:59 · 1457 阅读 · 0 评论 -
Python中re(正则表达式)模块函数学习
今天学习了Python中有关正则表达式的知识。关于正则表达式的语法,不作过多解释,网上有许多学习的资料。这里主要介绍Python中常用的正则表达式处理函数。 re.match ,从字符串开头匹配,返回一个Match Object,或None re.match 尝试从字符串的开始匹配一个模式,如:下面的例子匹配第一个单词。 import re text = "JGood转载 2013-05-22 15:14:54 · 11223 阅读 · 0 评论