三、网络爬虫之实战（1）

最新推荐文章于 2024-04-13 23:25:38 发布

HolllllldOn

最新推荐文章于 2024-04-13 23:25:38 发布

阅读量174

点赞数

分类专栏：爬虫笔记（MOOC Python网络爬虫与信息提取）文章标签：正则表达式 python 字符串

本文链接：https://blog.csdn.net/HolllllldOn/article/details/107378802

版权

爬虫笔记（MOOC Python网络爬虫与信息提取）专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1.正则表达式的概念

regular expression, regex, RE
正则表达式是用来简洁表达一组字符串的表达式
在这里插入图片描述

使用正则表达式的优势是什么？

简洁，一行胜千言一行就是特征(模式)

例子：

正则表达式

正则表达式是用来简洁表达一组字符串的表达式
正则表达式是一种通用的字符串表达框架
进一步
正则表达式是一种针对字符串表达“简洁”和“特征”思想的工具
正则表达式可以用来判断某字符串的特征归属

正则表达式在文本处理中十分常用：
表达文本类型的特征（病毒、入侵等）
同时查找或替换一组字符串
匹配字符串的全部或部分
……
最主要应用在字符串匹配中

正则表达式的使用

编译：将符合正则表达式语法的字符串转换成正则表达式特征
在这里插入图片描述

2.正则表达式的语法

在这里插入图片描述
正则表达式语法由字符和操作符构成

正则表达式常用操作符

在这里插入图片描述

正则表达式实例

在这里插入图片描述

经典正则表达式实例

在这里插入图片描述

匹配IP地址的正则表达式

在这里插入图片描述

3.Re库的基本使用

Re库介绍

Re库是Python的标准库，主要用于字符串匹配
调用方式： import re

正则表达式的表示类型

raw string类型（原生字符串类型）
re库采用raw string类型表示正则表达式，表示为：r’text’
例如：

r'[1‐9]\d{5}'
r'\d{3}‐\d{8}|\d{4}‐\d{7}'

raw string是不包含对转义符再次转义的字符串

re库也可以采用string类型表示正则表达式，但更繁琐
例如：

'[1‐9]\\d{5}'
'\\d{3}‐\\d{8}|\\d{4}‐\\d{7}'

建议：当正则表达式包含转义符时，使用raw string

Re库主要功能函数

在这里插入图片描述

re.search(pattern, string, flags=0)

在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象

pattern : 正则表达式的字符串或原生字符串表示
string : 待匹配字符串
flags : 正则表达式使用时的控制标记

例子：

>>> import re
>>> match = re.search(r'[1-9]\d{5}','BIT 100081')
>>> if match:
	print(match.group(0))

100081
>>>

re.match(pattern, string, flags=0)

从一个字符串的开始位置起匹配正则表达式，返回match对象

pattern : 正则表达式的字符串或原生字符串表示
string : 待匹配字符串
flags : 正则表达式使用时的控制标记
例子

>>> import re
>>> match = re.match(r'[1-9]\d{5}','BIT 100081')
>>> if match:
	print(match.group(0))

	
>>> match.group(0)
Traceback (most recent call last):
  File "<pyshell#16>", line 1, in <module>
    match.group(0)
AttributeError: 'NoneType' object has no attribute 'group'
>>> match = re.match(r'[1-9]\d{5}','100081 abc')
>>> if match:
	match.group(0)

'100081'
>>>

re.findall(pattern, string, flags=0)

搜索字符串，以列表类型返回全部能匹配的子串

pattern : 正则表达式的字符串或原生字符串表示
string : 待匹配字符串
flags : 正则表达式使用时的控制标记

>>> import re
>>> ls = re.findall(r'[1-9]\d{5}','bit100081 tsu100084')
>>> ls
['100081', '100084']
>>>

re.split(pattern, string, maxsplit=0, flags=0)

将一个字符串按照正则表达式匹配结果进行分割，返回列表类型

pattern : 正则表达式的字符串或原生字符串表示
string : 待匹配字符串
maxsplit: 最大分割数，剩余部分作为最后一个元素输出
flags : 正则表达式使用时的控制标记

>>> import re
>>> re.split(r'[1-9]\d{5}','bit100081 tsu100084')
['bit', ' tsu', '']
>>> re.split(r'[1-9]\d{5}','bit100081 tsu100084',maxsplit =1)
['bit', ' tsu100084']
>>>

re.finditer(pattern, string, flags=0)

搜索字符串，返回一个匹配结果的迭代类型，每个迭代，元素是match对象

pattern : 正则表达式的字符串或原生字符串表示
string : 待匹配字符串
flags : 正则表达式使用时的控制标记

>>> import re
>>> for m in re.finditer(r'[1-9]\d{5}','bit100081 tsu100084'):
	if m:
		m.group(0)

'100081'
'100084'
>>>

re.sub(pattern, repl, string, count=0, flags=0)

在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

pattern : 正则表达式的字符串或原生字符串表示
repl : 替换匹配字符串的字符串
string : 待匹配字符串
count : 匹配的最大替换次数
flags : 正则表达式使用时的控制标记

>>> import re
>>> re.sub(r'[1-9]\d{5}','zipcode','bit100081 tsu100084')
'bitzipcode tsuzipcode'
>>>

Re库的另一种等价用法

在这里插入图片描述

regex = re.compile(pattern, flags=0)

将正则表达式的字符串形式编译成正则表达式对象

pattern : 正则表达式的字符串或原生字符串表示
flags : 正则表达式使用时的控制标记

>>> regex = re.compile(r'[1‐9]\d{5}')

在这里插入图片描述

4.Re库的match类型

Match对象是一次匹配的结果，包含匹配的很多信息

>>> match = re.search(r'[1‐9]\d{5}', 'BIT 100081')
>>> if match:
		print(match.group(0))
>>> type(match)
<class '_sre.SRE_Match'>

match对象的属性

在这里插入图片描述

match对象的方法

在这里插入图片描述

>>> import re
>>> m = re.search(r'[1-9]\d{5}','bit100081 tsu100084')
>>> m.string
'bit100081 tsu100084'
>>> m.re
re.compile('[1-9]\\d{5}')
>>> m.pos
0
>>> m.endpos
19
>>> m.group(0)
'100081'
>>> m.start()
3
>>> m.end()
9
>>> m.span()
(3, 9)
>>>

5.Re库的贪婪匹配和最小匹配

Re库默认采用贪婪匹配，即输出匹配最长的子串

>>> import re
>>> match = re.search(r'PY.*N', 'PYANBNCNDN')
>>> match.group(0)
'PYANBNCNDN'
>>>

最小匹配操作符

在这里插入图片描述

>>> match = re.search(r'PY.*?N', 'PYANBNCNDN')
>>> match.group(0)
'PYAN'
>>>

只要长度输出可能不同的，都可以通过在操作符后增加?变成最小匹配

6.总结

在这里插入图片描述

HolllllldOn

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
三、网络爬虫之实战（1）

Re（正则表达式）库入门
复制链接

扫一扫

专栏目录

三、网络爬虫之实战（1）

Re（正则表达式）库入门

1.正则表达式的概念

使用正则表达式的优势是什么？

正则表达式

正则表达式的使用

2.正则表达式的语法

正则表达式常用操作符

正则表达式实例

经典正则表达式实例

匹配IP地址的正则表达式

3.Re库的基本使用

Re库介绍

正则表达式的表示类型

Re库主要功能函数

re.search(pattern, string, flags=0)

re.match(pattern, string, flags=0)

re.findall(pattern, string, flags=0)

re.split(pattern, string, maxsplit=0, flags=0)

re.finditer(pattern, string, flags=0)

re.sub(pattern, repl, string, count=0, flags=0)

Re库的另一种等价用法

regex = re.compile(pattern, flags=0)

4.Re库的match类型

match对象的属性

match对象的方法

5.Re库的贪婪匹配和最小匹配

最小匹配操作符

6.总结