python里使用正则表达式的非捕获模式实例二

原创 2017年10月27日 16:11:36
在前面学习了非捕获模式,也许有些同学还是很不了解它的应用,那么我们就来一个具体一些的例子,这样就会更加深入地了解它的应用意图。比如有一天自己兴趣来了,想写一个爬虫,去爬https://stackoverflow.com网站,发现需要分析这个网站地址,也就是把这些地址进行分离,判断那一些已经是重复了。比如下面两个地址:
'https://stackoverflow.com/'
'https://stackoverflow.com/questions/tagged/regex'
可以使用前面学习过的正则表达式来分析,比如要求如下:
 'https://stackoverflow.com/'  ('https', 'stackoverflow.com', '/')
 就是把地址分析不同的子串,这时你就会想到使用分组正则表达式的功能。但是你也许不关心https,需要把这串丢掉它,怎么办呢?这时就需要使用非捕获模式了(?:)。例子如下:
#python 3.6
#蔡军生 
#http://blog.csdn.net/caimouse/article/details/51749579
#
from re_test_patterns_groups import test_patterns

test_patterns(
    'https://stackoverflow.com/',
    [(r'(https?|ftp)://([^/\r\n]+)(/[^\r\n]*)?', 'capturing'),
     (r'(?:https?|ftp)://([^/\r\n]+)(/[^\r\n]*)?', 'non-capturing')],
)

test_patterns(
    'https://stackoverflow.com/questions/tagged/regex',
    [(r'(https?|ftp)://([^/\r\n]+)(/[^\r\n]*)?', 'capturing'),
     (r'(?:https?|ftp)://([^/\r\n]+)(/[^\r\n]*)?', 'non-capturing')],
)


 结果输出如下:
 '(https?|ftp)://([^/\\r\\n]+)(/[^\\r\\n]*)?' (capturing)


  'https://stackoverflow.com/'
  'https://stackoverflow.com/'  ('https', 'stackoverflow.com', '/')


'(?:https?|ftp)://([^/\\r\\n]+)(/[^\\r\\n]*)?' (non-capturing)


  'https://stackoverflow.com/'
  'https://stackoverflow.com/'  ('stackoverflow.com', '/')


'(https?|ftp)://([^/\\r\\n]+)(/[^\\r\\n]*)?' (capturing)


  'https://stackoverflow.com/questions/tagged/regex'
  'https://stackoverflow.com/questions/tagged/regex'  ('https', 'stackoverflow.com', '/questions/tagged/regex')


'(?:https?|ftp)://([^/\\r\\n]+)(/[^\\r\\n]*)?' (non-capturing)


  'https://stackoverflow.com/questions/tagged/regex'
  'https://stackoverflow.com/questions/tagged/regex'  ('stackoverflow.com', '/questions/tagged/regex')

 这样就达到实现的目标了,很轻松就完成了任务。

深入浅出Numpy
http://edu.csdn.net/course/detail/6149 

Python游戏开发入门

http://edu.csdn.net/course/detail/5690

你也能动手修改C编译器

http://edu.csdn.net/course/detail/5582

纸牌游戏开发

http://edu.csdn.net/course/detail/5538 

五子棋游戏开发

http://edu.csdn.net/course/detail/5487
RPG游戏从入门到精通
http://edu.csdn.net/course/detail/5246
WiX安装工具的使用
http://edu.csdn.net/course/detail/5207
俄罗斯方块游戏开发
http://edu.csdn.net/course/detail/5110
boost库入门基础
http://edu.csdn.net/course/detail/5029
Arduino入门基础
http://edu.csdn.net/course/detail/4931
Unity5.x游戏基础入门
http://edu.csdn.net/course/detail/4810
TensorFlow API攻略
http://edu.csdn.net/course/detail/4495
TensorFlow入门基本教程
http://edu.csdn.net/course/detail/4369
C++标准模板库从入门到精通 
http://edu.csdn.net/course/detail/3324
跟老菜鸟学C++
http://edu.csdn.net/course/detail/2901
跟老菜鸟学python
http://edu.csdn.net/course/detail/2592
在VC2015里学会使用tinyxml库
http://edu.csdn.net/course/detail/2590
在Windows下SVN的版本管理与实战 
http://edu.csdn.net/course/detail/2579
Visual Studio 2015开发C++程序的基本使用 
http://edu.csdn.net/course/detail/2570
在VC2015里使用protobuf协议
http://edu.csdn.net/course/detail/2582
在VC2015里学会使用MySQL数据库
http://edu.csdn.net/course/detail/2672


版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

python里使用正则表达式的非捕获模式

在前面使用了分组的模式来匹配正则表达式,比如'a((a+)|(b+))'的分组功能,就会产生三组值返回,如下:'a((a+)|(b+))' (capturing form)  'abbaabbba' ...

python里使用正则表达式的ASCII模式

目前,基本上都使用python3来开发了,但是有时为了兼容旧的python2的代码,在正则表达式里主要是字符串的表示方式不同了,在python3里是使用Unicode来表示字符串和正则表达式,而在py...

python里使用正则表达式的前向搜索或后向搜索模式

在许多的情况下,很多要匹配内容是一起出现,或者一起不出现的。比如《》,,这样的括号,不存在使用半个的情况。因此,在正则表达式里也有一致性的判断,要么两个尖括号一起出现,要么一个也不要出现。怎么样来实现...

python里使用正则表达式的详细模式(Verbose mode expression)

在前面学习过的正则表达式都是紧凑格式的表示方式,当你写的正则表达式比较长,比较复杂时,发现经常会写错,或者很难维护,遇到这种情况怎么办呢?这个不用急,聪明的设计人员早已经想到这种情况了,提供了一种叫做...

python里使用正则表达式的嵌套可选模式

在前面的例子里开始学习组嵌套的模式匹配,然而使用这个嵌套时,如果碰到选择符(|)就要小心一些了,在下面的例子里就演示了两个不同的正则表达式的差别,例子如下:#python 3.6 #蔡军生 #htt...

python里使用正则表达式的groups()函数访问组匹配串

前面通过括号()的方式来匹配正则表达式,会发现有多个成立的,如果把这些匹配的结果放到一个元组里,怎么样访问这些匹配的结果呢?在这里使用groups()函数来访问,如下面的例子:#python 3.6 ...

第11章 使用正则表达式的模式匹配(二)

11.2 用于模式匹配的 String 方法 迄今为止,虽然本章已经讨论过了用于创建正则表达式的语法,但是我们还没有检验过这些正则表达式在 JavaScript 代码中如何使用。在这一节中,我们将讨...

Java正则表达式的使用实例

  • 2009年09月30日 15:14
  • 984B
  • 下载

[python爬虫] 正则表达式使用技巧及爬取个人博客实例

这篇博客是自己《数据挖掘与分析》课程讲到正则表达式爬虫的相关内容,主要简单介绍Python正则表达式爬虫,同时讲述常见的正则表达式分析方法,最后通过实例爬取作者的个人博客网站。希望这篇基础文章对您有所...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:python里使用正则表达式的非捕获模式实例二
举报原因:
原因补充:

(最多只允许输入30个字)