Python爬虫之正则表达式

最新推荐文章于 2023-08-27 16:51:11 发布

新一人

最新推荐文章于 2023-08-27 16:51:11 发布

阅读量259

点赞数 1

分类专栏： Python爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41827511/article/details/98477187

版权

Python爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

首先我们要明白正则表达式是什么，用来作什么

正则表达式是一个特殊的符号序列，他帮助开发人员检查是否与某种模式匹配。

正则表达式常用的符号

一般字符

说明：

"."字符为匹配单个字符。例如，a.b可以的匹配结果为abc,aic,a&c等等，但不包括换行符

"\"字符为转义字符，例如“\n”。

"[...]"为字符集，相当于在中括号中任选一个。例如a[bcd],匹配的结果为ab,ac，ad。

预定义字符集

说明：

正则表达式中预定义字符集易于理解，在爬虫实战中，通常会匹配数字而过滤文字部分的信息。例如“数字3450”，只需要数字信息，通过“\d+”来匹配数据，“+”为数量词，匹配前一个字符1或无限次，这样便可以匹配到所有的数字。

数量词

例子：

"*":ab*c 匹配ac abc abbc abbbc等等

“+“: ab+c匹配abc abbc abbbc 等等

“？” :ab?c 匹配 ac abc

"{m}":ab{3}c匹配abbbc

"{m,n}":ab{1,3}c 匹配abc abbc abbbc

边界匹配

例子：

"^": ^abc匹配abc开头的字符串

"$":abc$匹配abc结尾的字符串

在爬虫实战中常用的（.*?）"()"表示括号的内容作为返回结果，".*?"是非贪心算法，匹配任意的字符。

import re
a="xxIxxxxlivexxxxstudyxx"
info=re.findall('xx(.*?)xx',a)
print(info)

re模块及其方法

search()函数

匹配并提取第一个符合规律的内容，返回一个正则表达式对象。

import re
b="one1,tow2three3"
info1=re.search("\d+",b).group()
print(info1)

sub函数

用于替换字符串中的匹配项

import re
phone="123-456-789"
new_phone=re.sub('\D','',phone)
print(new_phone)

findall()函数

匹配所有符合规律的内容，并以列表的形式返回结果。

import re
a="xxIxxxxlivexxxxstudyxx"
info=re.findall('xx(.*?)xx',a)
print(info)

re模块修饰符

欢迎进群交流

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫之正则表达式

首先我们要明白正则表达式是什么，用来作什么正则表达式是一个特殊的符号序列，他帮助开发人员检查是否与某种模式匹配。正则表达式常用的符号一般字符说明："."字符为匹配单个字符。例如，a.b可以的匹配结果为abc,aic,a&c等等，但不包括换行符"\"字符为转义字符，例如“\n”。"[...]"为字符集，相当于在中括号中任选一个。例如a[bcd],匹配的结果为...
复制链接

扫一扫

专栏目录

新一人 CSDN认证博客专家 CSDN认证企业博客

码龄6年

184: 原创

23万+: 周排名

118万+: 总排名

13万+: 访问

: 等级

2266: 积分

290: 粉丝

106: 获赞

61: 评论

570: 收藏

私信

关注

热门文章

分类专栏

日常 1篇
Java 18篇
数据结构 10篇
Sql 1篇
idea 2篇
SqlServer 3篇
Mysql 5篇
Mybatis 5篇
SpringBoot 10篇
activiti 3篇
redis 1篇
SpringCloud 2篇
SpringMvc 2篇
Spring 21篇
面试题 2篇
Android 19篇
SSH 23篇
Web 16篇
UML 1篇
Linux 10篇
设计模式 7篇
软件测试 1篇
软件设计师 2篇
数据分析 2篇
Python爬虫 3篇
计算机网络 4篇
C# 9篇

最新评论

DateEdit控件只显示月份
打哈欠的哈: 还有个问题，如果空间里面本身自己配置了其他的东西，即使在代码里面写了，也有可能不是自己想要的结果，可以重新创一个控件，不做任何属性修改，加上代码以后看是否有效果
使用GridControl自带选中复选框实现单选效果
A15296091743: 怎么实现某一复选框无法勾选啊
入职华为od一个月的感受
KJ.JK: 2023华为OD机试真题(C语言)：https://blog.csdn.net/m0_47384542/category_12265421.html?spm=1001.2014.3001.5482 2023华为OD机试真题(Python语言)：https://blog.csdn.net/m0_47384542/category_11954021.html 2023华为OD机试真题(JS 语言)：https://blog.csdn.net/m0_47384542/category_12357945.html 2023华为OD机试真题(C++语言)：https://blog.csdn.net/m0_47384542/category_12363874.html?spm=1001.2014.3001.5482 2023华为OD机试真题(Java 语言)：https://blog.csdn.net/m0_47384542/category_12360182.html 2023华为OD机试真题(C C++ Java Py JS)： https://blog.csdn.net/weixin_67451794/category_12386236.html
入职华为od一个月的感受
梦想橡皮擦: 华为OD机试2023，各语言版本大全 python：https://blog.csdn.net/hihell/category_12199275.html c++：https://blog.csdn.net/hihell/category_12199283.html
JavaEE框架整合开发入门到实战：Spring+SpringMVC+MyBAtis(微课版）——代码练习第二章
不见不散912: 你好，我想问下，我WEB-INF下的jsp文件都是红叉是怎么回事，我是直接导入源代码的

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。