Python爬虫（一）-正则表达式基础

MWHLS

于 2020-08-15 10:11:40 发布

阅读量115

点赞数

分类专栏： python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/asd123pwj/article/details/108018689

版权

python 专栏收录该内容

96 篇文章 6 订阅

订阅专栏

文章首发及后续更新：http://mwhls.top/453.html
新的更新内容请到mwhls.top查看。
如果没有图片请到上方的文章首发页面查看。

这块内容并没有详细的正则表达式内容，作者知识储备不足是其一，项目中用不上是其二。

基本示例

import re                                #引入re正则表达式库
matching_rule = re.compile("asd")        #定义正则表达式规则
search_result = matching_rule.findall("asd, asdasd, and asdasdasd in a string waiting for searching")    #利用规则搜索字符串
print(search_result)                     #输出结果

输出结果:['asd', 'asd', 'asd', 'asd', 'asd', 'asd']

匹配规则

函数：
规则变量名 = re.compile("规则内容")

正则表达式规则参考：十四个常用正则表达式

规则内容举例

a = re.compile("a")        //匹配所有a字符
b = re.compile("a+")       //匹配所有a, aa, aaa, aaaa...字符串
c = re.compile("asd*")     //匹配所有as, asd, asdd, asddd...字符串
d = re.compile("(asd)+")   //匹配所有asd, asdasd, asdasdasd...字符串
e = re.compile('"')        //匹配双引号"

f = re.compile('"(.*)"')   //匹配所有双引号中的字符串，如字符串"asd"，则匹配asd

以规则 f 为基础搜索，假设要搜索超链接的连接，通过html的语法可以知道，超链接是使用
<a href = "http://mwhls.top">首页<a/>
的格式写的，其中，超链接的内容位于 href = "这里"
那么，匹配规则为
rule = re.compile('href = "(.*)"')
这里要注意，规则外是用单引号 ' ，这是因为要匹配的文字中含有双引号 "
通过这个规则，匹配结果是
http://mwhls.top

此外，为了防止转义字符的影响，一般使用 r"" ，而不是 ""
print(r"\\aa") 输出结果为\\aa
print("\\aa") 输出结果为\aa

搜索函数

函数：
规则变量名.findall(待匹配字符串)

findall匹配所有符合规则的字符

findall最终会返回一个列表，例如

web_data = "<a href = "http://mwhls.top">首页<a/>"
rule = re.compile('href = "(.*)"')
result = rule.findall(web_data)
print(result)

会返回一个只有一个元素的列表
['http://mwhls.top']

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫（一）-正则表达式基础

文章首发及后续更新：http://mwhls.top/453.html新的更新内容请到mwhls.top查看。如果没有图片请到上方的文章首发页面查看。这块内容并没有详细的正则表达式内容，作者知识储备不足是其一，项目中用不上是其二。基本示例import re #引入re正则表达式库matching_rule = re.compile("asd") #定义正则表达式规则search_result = match
复制链接

扫一扫

专栏目录

MWHLS CSDN认证博客专家 CSDN认证企业博客

码龄9年

257: 原创

5万+: 周排名

4万+: 总排名

46万+: 访问

: 等级

4485: 积分

186: 粉丝

383: 获赞

134: 评论

1822: 收藏

私信

关注

热门文章

分类专栏

python 96篇
计算机理论 25篇
Unity 27篇
服务器 3篇
系统 3篇
AI模型 2篇
游戏 8篇
Latex 1篇
远程 1篇
WordPress 21篇
PHP 5篇
docker 6篇
单片机 6篇
其他 22篇
随笔 1篇
Transformer 1篇
C 51篇
Windows 6篇
markdown 5篇
ReID 1篇
linux 12篇
汇编 2篇
Matlab 9篇
云服务 2篇
算法 6篇
java 16篇
数据库 1篇
数据结构 12篇
VMware Workstation 3篇
VirtualBox 1篇

最新评论

Multisim原理图转AD PCB板/AD自动画板
2301_78753198: 怎么添加USB接口
pycharm找不到已安装的包/无法找到新包解决办法
m0_70985845: 解决了，感谢
asdTools-ReID Rank可视化
MWHLS: 您好，query_loader用于提供一个query_loader.dataset.dataset，其是一个包含NxM的列表，N表示图像数，M表示数据信息，例如[[img_path1, pid1, camid1], [img_path2, pid2, camid2]]，为一个2x3的列表，图像数为2，数据信息为3 此外，图像数与数据信息没有限制，只要保证每项前三个为[img_path, pid, camid]即可，如服装、视角、模态等标签的顺序不会影响结果据我所知，目前类似query_loader.dataset.dataset的数据信息中都是以该顺序排放的，所以可以直接使用无需修改。然而，一些代码可能不使用query_loader.dataset.dataset保存数据信息，您可以替换我的代码，令query_loader.dataset.dataset与gallery_loader.dataset.dataset改为您所用的数据信息列表，这可以通过debug query_loader来实现。
MMSeg无法使用单类自定义数据集训练
.Lemon439: 您好，请问您解决了嘛，急急急
asdTools-ReID Rank可视化
_穆阳_: 您好，请问可以问一下这个query_loader的组成形式是什么样子的呢，您的站点现在好像登陆不了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。