正则应用实例

最新推荐文章于 2021-03-07 20:18:50 发布

书唐瑞

最新推荐文章于 2021-03-07 20:18:50 发布

阅读量288

点赞数

分类专栏： Python 文章标签：正则

书唐瑞

本文链接：https://blog.csdn.net/qq_45859054/article/details/112255041

版权

Python 专栏收录该内容

11 篇文章 1 订阅

订阅专栏

有这么一个需求,将下面字符串中的链接筛选出来

这是第一个图片<img href="https://img.infuq.com">，
这是第二个图片<img src="http://v.infuq.com" />

其中一个是用href,另一个是用src. 使用Python代码处理如下

import re

def find():
    content = '这是第一个图片<img href="https://img.infuq.com">，这是第二个图片<img src="http://v.infuq.com" />'
    ret = re.findall(r'(?<=[(src|href)]=")[^"]+(?=")', content)
    print(ret)

if __name__ == '__main__':
    find()

这个问题的关键点就是正则该如何写,能写出来正则,那么问题基本就解决了.正则表达式如下

(?<=[(src|href)]=")[^"]+(?=")

然而,上面的理解是不准确的
分析如下

(src|href)这个正则所能匹配的是src和href这两个串
[(src|href)]这个正则所能匹配的是( s r c | h r e f ) 这10个字符,而不是src和href这两个串

因此,我们可以把最终的正则表示成如下

# href和src的最后一个字符分别是f和c
(?<=[fc]=")[^"]+(?=")

但是这样还是不精确的,假如要匹配的内容是如下

这是第一个图片<img href="https://img.infuq.com">，
这是第二个图片<img src="http://v.infuq.com" >
这是第三个图片kf="https://img.infuq.com" />

我们最终的需求是要href和src的链接,使用 (?<=[fc]=")[^"]+(?=")能把kf="https://img.infuq.com"也匹配出来.

先在Sublime验证下
在这里插入图片描述或者

在这里插入图片描述一样也能精确匹配到需要的内容.

因此Python的代码如下

import re

def find():
    content = '这是第一个图片<img href="https://img.infuq.com">，这是第二个图片<img src="http://v.infuq.com" kf="http://q.infuq.com" />'
    
    # 这种写法在Sublime可以,但是在Python中不支持
    # ret = re.findall(r'((?<=href=")|(?<=kf="))[^"]+(?=")', content)
    
    ret = re.findall(r'(?<=href=")[^"]+(?=")|(?<=src=")[^"]+(?=")', content)
    print(ret)

if __name__ == '__main__':
    find()

个人站点

在这里插入图片描述

书唐瑞

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则应用实例

有这么一个需求,将下面字符串中的链接筛选出来这是第一个图片<img href="https://img.infuq.com">，这是第二个图片<img src="http://v.infuq.com" />其中一个是用href,另一个是用src. 使用Python代码处理如下import redef find(): content = '这是第一个图片<img href="https://img.infuq.com">，这是第二个图片<img s
复制链接

扫一扫

专栏目录