正则表达式
my2010Sam
这个作者很懒,什么都没留下…
展开
-
#小练习 正则表达式匹配邮箱名称
s='zhg@142.com, ziiwe@163.com,zh__1334@sin.com, zhg223@sina.com, [Master]zhg13@sina.com,[科比]Kobe@NBA.com,James@NBA.net,T-Mac@tech.abc'要求:输出xxx@xxxxx.xxx 或 [xxx]xxx@xxxx.xxx 格式的邮箱地址,邮箱末尾可以有逗号原创 2013-05-23 16:15:31 · 1095 阅读 · 0 评论 -
python 正则表达式操作指南
python 正则表达式操作指南以下内容不错http://wiki.ubuntu.org.cn/Python%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F%E6%93%8D%E4%BD%9C%E6%8C%87%E5%8D%97#.E6.90.9C.E7.B4.A2.E5.92.8C.E6.9B.BF.E6.8D.A2转载 2013-05-28 16:18:26 · 826 阅读 · 0 评论 -
贪婪 vs 不贪婪
当重复一个正则表达式时,如用 a*,操作结果是尽可能多地匹配模式。当你试着匹配一对对称的定界符,如 HTML 标志中的尖括号时这个事实经常困扰你。匹配单个 HTML 标志的模式不能正常工作,因为 .* 的本质是“贪婪”的#!python>>> s = 'Title'>>> len(s)32>>> print re.match('', s).span()(0, 32)>>> pr转载 2013-10-09 15:00:56 · 804 阅读 · 0 评论 -
#小练习 使用正则抓取oschina博客专区首页数据
使用正则抓取oschina博客专区首页数据,包括:博客链接地址、标题、摘要、发布人、发布时间#coding:utf-8import urllib2,redef getpage(url): f=urllib2.Request(url) #此时添加header,模拟浏览器访问,否则会报错:HTTPError: HTTP Error 403: Forbidden原创 2013-11-11 17:22:16 · 1342 阅读 · 0 评论 -
提取网易的链接及链接名称
import urllib2,re#读取网页信息def getcontent(url): request=urllib2.Request(url) f=urllib2.urlopen(request) content= f.read() return content#使用re提取所需信息def pars_content(url): content原创 2013-11-07 14:02:24 · 1257 阅读 · 0 评论 -
获取函数中的参数
注意此处eval的使用原创 2013-10-16 15:14:37 · 762 阅读 · 0 评论 -
正则 分组group
import res=r'ht+p://(w{1,3})\.(.*)\.(com)'mo=re.compile(s)ob=mo.search('http://www.python.com') #返回一个MatchObjec 对象print obprint ob.groups() #以元组形式返回所有的组print ob.group(0) #默认0,以字符串形原创 2013-05-23 10:40:11 · 747 阅读 · 0 评论 -
正则表达式 断言
转载地址:http://cnn237111.blog.51cto.com/2359144/749047正则表达式的先行断言和后行断言一共有4种形式: (?=pattern) 零宽正向先行断言(zero-width positive lookahead assertion) (?!pattern) 零宽负向先行断言(zero-width negative lookahead asse转载 2013-05-27 05:57:22 · 1334 阅读 · 0 评论 -
(学习)python非贪婪、多行匹配正则表达式例子
一些regular的tips:1 非贪婪flag>>> re.findall(r"a(\d+?)","a23b") # 非贪婪模式 ['2']>>> re.findall(r"a(\d+)","a23b") ['23']注意比较这种情况:>>> re.findall(r"a(\d+)b","a23b")转载 2013-08-19 11:21:07 · 19857 阅读 · 2 评论 -
#小练习 从多个文件中提取电话号码
import sys,glob,re,fileinputpattern = r'(\d{3})\D*(\d{3})\D*(\d{4})\D*(\d*)$''''测试数据:800-555-1212800 555 1212800.555.1212(800) 555-12121-800-555-1212800-555-1212-1234800-555-12原创 2013-05-28 15:40:59 · 1459 阅读 · 0 评论 -
Python中re(正则表达式)模块函数学习
今天学习了Python中有关正则表达式的知识。关于正则表达式的语法,不作过多解释,网上有许多学习的资料。这里主要介绍Python中常用的正则表达式处理函数。re.match ,从字符串开头匹配,返回一个Match Object,或None re.match 尝试从字符串的开始匹配一个模式,如:下面的例子匹配第一个单词。import retext = "JGood转载 2013-05-22 15:14:54 · 11225 阅读 · 0 评论