爬虫笔记（六）——如何写正则表达式详解

最新推荐文章于 2023-04-17 15:06:41 发布

weixin_34112181

最新推荐文章于 2023-04-17 15:06:41 发布

阅读量423

点赞数 1

文章标签：爬虫 python

原文链接：http://www.cnblogs.com/longwhite/p/10397764.html

版权

什么是正则表达式？

　　正则表达式(Regular Expression)是一种文本模式，在编写处理字符串的程序或网页时，经常会有查找符合某些规则的字符串的需求。正则表达式就是用于描述这些规则的工具，换句话说，正则表达式就是记录文本规则的代码。我们将分别从原子、元子符、模式修正符、贪婪模式与懒惰模式等方面进行介绍，代码引进re模块。

这篇博客主要讲如何写正则表达式，下篇再介绍关于正则表达式的函数运用。

一、原子

原子是正则表达式中最基本的组成单位，每个正则表达式至少要包含一个原子，常见原子主要有以下几类：

普通子符作为原子
非打印字符作为原子
通用字符作为原子
原子表

普通字符就是利用数字、大小写字母、下滑线等作为原子使用。如“python"，这里有六个原子，分别是python的六个字母。如下面的代码中，用”python"取匹配一段字符，如“wanglongxuepython"，成功匹配到了'python'。

import re

string = "wanglongxuepython"
pattern = "python"
result = re.search(pattern,string)
print (result)

#<_sre.SRE_Match object; span=(11, 17), match='python'>

非打印字符就是指在字符串中起格式控制的符号，常见有换行符\n和制表符\t，其分别用来匹配换行和制表。

import re

string = '''wanglong
xuepython'''
pattern = "\n"
result = re.search(pattern,string)
print (result)

#<_sre.SRE_Match object; span=(8, 9), match='\n'>

如果string没有包含换行，就会返回None。

import re

string = "wanglongxuepython"
pattern = "\n"
result = re.search(pattern,string)
print (result)

#None

通用字符就是可以用一个原子匹配一类字符，常见的通用字符有以下几个：

\w 　　可以匹配任意一个大小写字母、数字或下划线的字符
\W　　　　　可以匹配任意一个除大小写字母、数字和下划线以外的字符
\s　　　　　可以匹配任意一个空白字符
\S　　　　　可以匹配任意一个除空白字符以外的字符
\d　　　　　可以匹配任意一个十进制数
\D　　　　　可以匹配任意一个除十进制数以外的字符

比如我们用"\d\dxue\w"去匹配一个string"wanglong1314xuepython"，就可以得到“14xuep"。

import re

string = "wanglong1314xuepython"
pattern = "\d\dxue\w"
result = re.search(pattern,string)
print (result)

#<_sre.SRE_Match object; span=(10, 16), match='14xuep'>

原子表就是定义一组地位平等的原子，然后匹配时会在原子表中取任意一个原子，用[ ]表示，比如[love]。还有一种是匹配时会取除原子表内原子以外任意一个，这种用[ ^]表示，比如[^love]。[a-z]表示是a到z。

import re

string = "wanglong1314xuepython"
pattern = "[love]ong13"
result = re.search(pattern,string)
print (result)

#<_sre.SRE_Match object; span=(4, 10), match='long13'>

二、元字符

所谓的元字符就是在正则表达式中具有特殊含义的字符，比如重复前面N次字符等。具体来说元字符分为任意匹配元字符、边界限制元字符、限定符、模式选择符、模式单元等。

任意匹配元字符用着'.'表示，他可以匹配除换行符以外的任意一个字符。

import re

string = "wanglong1314xuepython"
pattern = "...long...."
result = re.search(pattern,string)
print (result)

#<_sre.SRE_Match object; span=(1, 12), match='anglong1314'>

边界限制元字符，可以使用"^"匹配字符串的开始，使用"$"匹配字符串的结束。

import re

string = "wanglong1314xuepython"
pattern1 = "^wang"
pattern2 = "^long"
pattern3 = "thon$"
pattern4 = "pyth$"
result1 = re.search(pattern1,string)
result2 = re.search(pattern2,string)
result3 = re.search(pattern3,string)
result4 = re.search(pattern4,string)
print (result1)
print (result2)
print (result3)
print (result4)

#<_sre.SRE_Match object; span=(0, 4), match='wang'>
#None
#<_sre.SRE_Match object; span=(17, 21), match='thon'>
#None

限定符也是元字符的一种，常见限定符有下面几个：

* 　　匹配0次、1次或多次前面的原子
?　　　　　　匹配0次或1次前面的原子
+　　　　　　匹配1次或多次前面的原子　
{n}　　　　　　前面的原子恰好出现n次
{n,}　　　　　　前面的原子至少出现n次
{n,m}　　　　　　前面的原子至少出现n次，至多出现m次

import re

string = "aabbbcde"
pattern1 = "a.*c"
pattern2 = "b?c"
pattern3 = "b+c"
pattern4 = "b{2}c"
pattern5 = "b{2,}c"
result1 = re.search(pattern1,string)
result2 = re.search(pattern2,string)
result3 = re.search(pattern3,string)
result4 = re.search(pattern4,string)
result5 = re.search(pattern5,string)
print (result1)
print (result2)
print (result3)
print (result4)
print (result5)

#<_sre.SRE_Match object; span=(0, 6), match='aabbbc'>
#<_sre.SRE_Match object; span=(4, 6), match='bc'>
#<_sre.SRE_Match object; span=(2, 6), match='bbbc'>
#<_sre.SRE_Match object; span=(3, 6), match='bbc'>
#<_sre.SRE_Match object; span=(2, 6), match='bbbc'>

模式选择符用着‘｜’表示，比如' A|B '，它可以任意选择一种模式去匹配，即A模式和B模式，哪种模式更快匹配到则取哪种模式。

import re

string = "aabbbcde"
pattern1 = "ac|cd"
pattern2 = "cd|aa"
result1 = re.search(pattern1,string)
result2 = re.search(pattern2,string)
print (result1)
print (result2)

#<_sre.SRE_Match object; span=(5, 7), match='cd'>
#<_sre.SRE_Match object; span=(0, 2), match='aa'>

模式单元符用（）表示，他可以将几个单元符变成一个大单元。

import re

string = "aabbbbcde"
pattern1 = "(bb){2}cd"
pattern2 = "bb{2}cd"
result1 = re.search(pattern1,string)
result2 = re.search(pattern2,string)
print (result1)
print (result2)

#<_sre.SRE_Match object; span=(2, 8), match='bbbbcd'>
#<_sre.SRE_Match object; span=(3, 8), match='bbbcd'>

三、模式修正

所谓的模式修正就是在不改变正则表示式的情况下，通过模式修正改变正则表达式的含义，从而实现一些匹配结果调整等功能。常见的一些模式修正符有以下几点：

I 匹配时忽略大小写
M　　　多行匹配
L　　　做本地识别匹配
U　　　根据Unicode字符及解析字符
S　　　让.可以匹配换行符，即.可以匹配任意字符

import re

string = "aabbbbcde"
pattern1 = "bbBB"
result1 = re.search(pattern1,string)
result2 = re.search(pattern1,string,re.I)
print (result1)
print (result2)

#None
#<_sre.SRE_Match object; span=(2, 6), match='bbbb'>

四、贪婪模式与懒惰模式

贪婪模式的核心就是尽可能地多的匹配，懒惰模式的核心就是尽可能地少匹配。

import re

string = "wanglongphp223python_py"
pattern1 = "p.*y"  #贪婪模式
pattern2 = "p.*?y"　#懒惰模式
result1 = re.search(pattern1,string)
result2 = re.search(pattern2,string)
print (result1)
print (result2)

#<_sre.SRE_Match object; span=(8, 23), match='php223python_py'>
#<_sre.SRE_Match object; span=(8, 16), match='php223py'>

转载于:https://www.cnblogs.com/longwhite/p/10397764.html

weixin_34112181

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
爬虫笔记（六）——如何写正则表达式详解

什么是正则表达式？　　正则表达式(Regular Expression)是一种文本模式，在编写处理字符串的程序或网页时，经常会有查找符合某些规则的字符串的需求。正则表达式就是用于描述这些规则的工具，换句话说，正则表达式就是记录文本规则的代码。我们将分别从原子、元子符、模式修正符、贪婪模式与懒惰模式等方面进行介绍，代码引进re模块。这篇博客主要讲如何写正则表...
复制链接

扫一扫