Python爬虫学习-第一节正则表达式

最新推荐文章于 2024-07-12 19:06:42 发布

txy806893631

最新推荐文章于 2024-07-12 19:06:42 发布

阅读量478

点赞数

分类专栏： python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/txy806893631/article/details/91573519

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

正则表达式是学习网络爬虫非常重要的基础。

这个基础没打扎实，寸步难行，通过以下几步可以深刻理解python正则表达式.每一步都不能错过

如果您能耐心看完，那么你讲很容易理解正则表达式。 ?

在文章得最后，还会通过几个实例加深理解。

1、懂得正则表达式模块引入

import re 引入正则表达式模块

2、原子概念

可以说是正在表达式得最小单位，必须理解透彻。

分4类：a、普通字符原子如：数字、字母、下划线等

b、非打印字符原子如：\n 、\t 对应换行、Tab

c、通用字符原子(很重要) 如：\w 表示任意一个字母、数字、下划线；\s一个空白字符；\d 任一个十进制

对应大写相反意思，\W表示任意一个非字母、数字、下划线；\S一个非空白字符，不包括换行符；

d、原子表如：pat="pyth[org]n" [org]就是一个原子表，[org]=o r g三个字母中的一个。只能是其中一个。

3、元字符

写字符筛选规则经常用到的符号，平时看不懂得Python符号也在这里。

. 表示匹配任意一个字符，除了换行符

^匹配字符串开始的位置； $匹配字符串结束的位置

* 匹配多次如：“s*”=“sssss……”

？匹配一次或零次如：“s?”=“ss”或“s”

+ 匹配一次或多次如：“s+”="s"或“sssss”

｛｝限制出现次数如 "t{3}" =“ttt”；

"t{3,}"表示至少出现3次； “t{3,7}”表示出现次数3-7次之间

| 表示或，如 [.com|.cn]='.com' 或 '.cn'

4、模式修正符

这个其实是正则函数中的一个参数。说几个常见的

re.i 匹配时不在乎大小写；re.M多行匹配，不局限一行；re.S 让\S包括换行符，原来表示非空字符。

5、贪婪模式和懒惰模式

贪婪就是尽可能多匹配，懒惰尽可能少匹配。

后面会举例说明。

5、正则表达式函数

终于到这一步了。常用的就3个。待会会通过实例比较三个函数区别

A、re.search(pat，string，模式修正符) 匹配整个String,看是否有符合pat规则，模式修正符可有可无。

B、re.match(pat，string，模式修正符) 和search函数区别，match必须从String第一个字符开始匹配，是否有符合Pat规则的字符。

C、上面2个函数只匹配出一个符合Pat规则的字符串，下面函数会匹配所有符合Pat规则的字符串.

re.compile(pat).findall(string)

6、各种实例实验

Pat表示匹配的规则

String表示在这个里面匹配

实验一、贪婪、懒惰模式匹配区别

pat1贪婪模式 (.*) ， pat2懒惰模式 (.*?)

贪婪模式：结果：

懒惰模式：结果：

注：结果中span表示成功匹配范围字符串下标表示，match表示比配到的字符串

实验二、编写一个爬网页上网址的规则

网页的规则有很多种，我只写一种简单的。 如果看不懂，请用心看前面的基础概念

pat="[a-zA-Z]+://[\S]+[.com|.cn]"

分步解析：[a-zA-Z]+ ：表示字母出现一次或多次，[\S]+：表示非空字符出现一次或多次，[.com|.cn]：.com或.cn中的一种

结果：

若有错误还请在评论区留言。每天努力一点点 ?

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫学习-第一节正则表达式

正则表达式是学习网络爬虫非常重要的基础。这个基础没打扎实，寸步难行，通过以下几步可以深刻理解python正则表达式.每一步都不能错过如果您能耐心看完，那么你讲很容易理解正则表达式。
复制链接

扫一扫

专栏目录

txy806893631 CSDN认证博客专家 CSDN认证企业博客

码龄7年

4: 原创

43万+: 周排名

198万+: 总排名

1万+: 访问

: 等级

182: 积分

5: 粉丝

7: 获赞

4: 评论

32: 收藏

私信

关注

热门文章

分类专栏

工具配置 1篇
Android 1篇
Bmob 1篇
python 2篇

最新评论

关于Bmob服务器-图片上传功能实现
weixin_43977519 回复王俊凯⁢　: 你好，想请问一下，没有域名，怎末上传下载图片
关于Bmob服务器-图片上传功能实现
王俊凯⁢　回复王俊凯⁢　: 你得获取到图片的真实地址，传图片如果是文件File类型，是需要设置域名的，如果没有可以将真实地址存String类型然后上传。
关于Bmob服务器-图片上传功能实现
weixin_45680690 回复王俊凯⁢　: 我连图片都没有获取。能问一下你那个mpath那里怎么改的吗？还有，我的bmob数据库里，User_pic字段那里，上传文件要绑定域名，你是这样吗？
关于Bmob服务器-图片上传功能实现
王俊凯⁢　: 我用的的4.4版本以上的，为什么图片获取了但是上传不成功？同样也是获取的真实地址！！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。