正则的使用

励志的大鹰哥

已于 2023-09-21 10:07:22 修改

阅读量278

点赞数

分类专栏：方法使用查询文章标签： python 爬虫正则入门

于 2019-08-02 16:32:52 首次发布

本文链接：https://blog.csdn.net/CSDN_Xying/article/details/97288709

版权

方法使用查询专栏收录该内容

5 篇文章 0 订阅

订阅专栏

正则

正则：（ Regular Expression 又称 regex）
是一种匹配规则

实例

写一个用户登陆需要username,password,email，用正则作简单验证输入是否合法
要求：
	1- username以数字字母下划线组成，不能以数字开头，长度位6-18位
	2- 密码至少为8位
	3- 邮箱合法（以大众邮箱为准）
1- 第一位：[a-zA-Z_] ， 第二到十八位：\w(5,17)
	^[a-zA-Z_]\w(5,17)

2- 八位任意字符
	 ^.{8:}$

3- 以大众邮箱（123456@qq.com）结构( 第一字段@第二字段.第三字段 ) 
	^\w+@\w+\.\w+$

方法

re.match()						是否以目标字符开头
re.search()						是否存在目标字符
re.findall()					是否存在目标字符，并返回匹配到的内容
re.compile()					正则的编译
		re.compile(‘string’)	
re.split()						正则的拆分
		re.splite('*|-',string)			按照*或者-将string字符串拆分
re.sub()					正则的替换
		re.sub('.{1,4}在学习爬虫',string)

符号

.  :  单个任意字符，除了换行
[] : 单个字符范围
		[abc] : 匹配a或b或c
		[a-z] :匹配a到z范围之间的单个![在这里插入图片描述](https://img-blog.csdnimg.cn/20190730150430919.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0NTRE5fWHlpbmc=,size_16,color_FFFFFF,t_70)字符
		[a-zA-Z0-9_] : 匹配数字子模下划线
\d : 	表示数字，相当于[0-9]
\D		表示非数字[^0-9]
\w		表示数字字母下划线
\W		表示非数字字母下划线
\s		表示空格，换行\n,制表符\t,回车符\r,换页符\f
\S		表示非s

边界字符

* ： 表示前面字符出现任意多次：0-n
+ ： 表示前面字符出现的至少一次
？ ： 表示前面字符出现0次或1次
{} ： 表示出现次数范围
	{4} : 4次
	{4,} : 4次或以上
	{,5} : 最多五次
	{4，10} ： 出现4-10次

贪婪模式 / 非贪婪模式

贪婪模式：* + {}
非贪婪 ： ？

规则

[]	表示字符范围
{}	表示出现次数
()	表示字符整体

分组别名

string = '0075-88888888'
pattern = '(?P<CityCode>\d{4}-(?P<phone>\d{8}))'
res = re.search(pattern,string)

要获取phone部分，可以用到分组
res.group()			#获取全部内容
res.group(1)		#获取第一个分组中匹配的内容，0075-88888888
res.group(2)		#获取第二个括号内的内容，88888888

在这里插入图片描述

正则可用于爬虫匹配数据。.常用的网页爬去中有很多空格换行。可以使用
re_element = '<dl class="board-wrapper">(.*?)</div>'
result = re.findall(re_element,html,re.S)
re.S的形式，匹配到所有元素

学如逆水行舟，不进则退。
																				一个以全栈工程师为目标的奋青程序员

励志的大鹰哥

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则的使用

正则正则：（ Regular Expression 又称 regex）是一种匹配规则方法re.match() 是否以目标字符开头re.search() 是否存在目标字符re.fidall() 是否存在目标字符，并返回匹配到的内容re.compile()re.split()re.sub()符号. : 单个任意字符，除了换行[] : 单个字符范围...
复制链接

扫一扫