Python正则表达式(持续更新,各种字符串筛选,总有一款适合您当前的功能)_python 正则表达式筛选

4、网页中中文提取

总结:


一、python【re】的用法

通用函数:

函数名作用
span()获取匹配字符串下标范围,返回元组。
group()返回匹配字符串结果,返回字符串。

1、re.match函数·单一匹配-推荐指数【★★】

re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。

函数语法:

re.match(pattern, string, flags=0)

pattern:正则表达式字符串。

string:需要匹配的字符串。

第三个flags是控制正则的严谨度,常用的两个:re.I不区分大小写,re.S遇到【\n】继续匹配。

示例:

注:re.match弊端:只能匹配是否以某字符串为开头的内容,所以很多场合不合适。

import re

'''
re.match弊端:只能匹配是否以某字符串为开头的内容
'''
result1 = re.match(r'I', 'i Have A Dream!', re.I)  # 在起始位置匹配,不区分大小写
result2 = re.match(r'Dream', 'I Have A dream!', re.I)  # 不在起始位置匹配,不区分大小写
print(result1)
print("匹配位置:", result1.span())
print("匹配字符串:", result1.group())
print(result2)

结果中我们能看到是否以字符串开头进行字符串匹配的区别,虽然都含有,但是不是开头的字符串就不匹配。

2、re.search函数·单一匹配-推荐指数【★★★★★】

注:re.search函数无论在哪里都能匹配字符串。

函数语法与re.match函数一样。

import re

'''
re.search:无论在哪里都能匹配
'''
result1 = re.search(r'I', 'I Have A Dream!', re.I)  # 不区分大小写
result2 = re.search(r'Dream', 'I Have A dream!dream', re.I)  # 不区分大小写
print(result1)
print("匹配位置:", result1.span())
print("匹配字符串:", result1.group())
print("匹配位置:", result2.span())
print("匹配字符串:", result2.group())

在结果中我们可以清晰的看到匹配到匹配到的位置。

以上两种都只能匹配一次,那么很多时候我们是一个超级大的字符串,或甚至是整个【H5】网页,那么,我们需要多个匹配的时候就不能使用这两个函数了。

3、re.findall函数·多项匹配-推荐指数【★★★★★】

在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果有多个匹配模式,则返回元组列表,如果没有找到匹配的,则返回空列表。个人喜欢用列表所以五星推荐。

注:这里通上面的两个函数的本质却别就出来了,我们可以匹配一个大字符串中所有符合正则表达式的字符串。

示例:

import re

'''
re.findall:匹配所有符合正则表达式的字符串
'''
result1 = re.findall(r'I', 'I Have A Dream!I I I I I I I')  # 在起始位置匹配
result2 = re.findall(r'Dream', 'I Have A Dream!Dream')  # 不在起始位置匹配
print(result1)
print(result2)

结果中我们能看到所有符合的字符串都返回到了列表中,没有去重操作。

4、re.finditer函数·多项匹配-推荐指数【★★★★】

在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。个人不太喜欢用迭代器,故而推荐指数四颗星。

注:这里我与findall做了个对比,喜欢使用迭代器的可以使用这个函数啊。

import re

content = '''email:372699828@qq.com
email:feng8403000@163.com
email:qwe8403000@126.com
'''
result_findall = re.findall(r"\d+@\w+.com", content)
print("迭代器类型:", type(result_findall))
# 返回list
result_findall
for i in result_findall:
    print(i)

print("-" * 20)

result_finditer = re.finditer(r"\d+@\w+.com", content)
# 返回iterator
print("list列表类型:", type(result_finditer))
for i in result_finditer:
    print(i.group())

5、re.sub函数·替换函数-推荐指数【★★★★】

这个函数用的相对来说不是很多,一般正则梳理好的字符串就直接使用字符串的处理方法来搞定了。但是这个函数还是很方便的,只是我不推荐替换原内容。

示例:

import re

'''
re.sub:替换匹配字符串
'''
result1 = re.sub(r'I', '我', 'I Have A Dream!')
result2 = re.sub(r'Dream', '梦想', 'I Have A Dream!Dream')
print(result1)
print(result2)

结果中可以看到,这个替换匹配是默认多个匹配的。

二、正则表达式示例·总有一款适合你

1、正则表达式匹配HTML指定id/class的标签

r"<ul class=“chapter-list clearfix”>.*?"

.*?含义是不限任意字符的匹配,直到【?】后面的内容代表结束,这里【?】后面是【】,所以能截取整个ul标签的内容。以后用处很多,记住。

import re
import requests

'''
获取某网站·某个·class元素下·所有内容·返回字符串
'''
url = "https://book.zongheng.com/showchapter/1243826.html"
context = requests.get(url).content.decode("utf-8")
result1 = re.findall(r"<ul class=\"chapter-list clearfix\">.*?</ul>", context, re.S)
print(result1)
print(len(result1[0]))
print(result1[0])

结果中能看截取成功:

2、正则表达式匹配HTML中所有a标签中的各类属性值

r’<a.*? href=“(.*?)”.*?>.*?’

同理,想获得【title】标签就将正则表达式中的属性换成想要的就行。

import re

'''
正则获取所有a标签的href值
'''
context = """
<a href="https://baidu.com" target="_blank">百度</a>
<a href="https://baidu.com" target="_blank">百度</a>
<a href="https://baidu.com" target="_blank">百度</a>
<a href="https://baidu.com" target="_blank">百度</a>
"""
result1 = re.findall(r'<a.*? href="(.*?)".*?>.*?</a>', context)
print(result1)

实际示例1:获取href值

import re
import requests

'''
获取某网站·某个·class元素下·所有内容·返回字符串·根据字符串匹配超链接的href值
'''
url = "https://book.zongheng.com/showchapter/1243826.html"
context = requests.get(url).content.decode("utf-8")
result1 = re.findall(r"<ul class=\"chapter-list clearfix\">.*?</ul>", context, re.S)
a_href = re.findall(r'<a.*? href="(.*?)".*?>.*?</a>', result1[0], )
print("爬取成功:", len(a_href))
for item in a_href:
    print(item)

结果匹配到138条超链接的值:

实际示例2:获取title值

import re
import requests

'''
获取某网站·某个·class元素下·所有内容·返回字符串·根据字符串匹配超链接的title值
'''
url = "https://book.zongheng.com/showchapter/1243826.html"
context = requests.get(url).content.decode("utf-8")
result1 = re.findall(r"<ul class=\"chapter-list clearfix\">.*?</ul>", context, re.S)
a_href = re.findall(r'<a.*? title="(.*?)".*?>.*?</a>', result1[0], )

for item in a_href:
    print(item)
print("爬取成功:", len(a_href))

结果可看到,同样匹配成功。

3、获取标签的文本值·例如:span标签、a标签文本

我这里处理的是a标签的文本,咱们没有使用框架,相对来说纯使用正则表达式稍微麻烦一些,但是处理方式还是不复杂的,可以看到我获取a标签所有内容后,将左右的标签符号去掉就剩下中间的文本了,还是挺容易获取的。如果是span标签,您直接把a标签替换成span标签就行了。

获取方法1:
import re
import requests

'''
获取某网站·某个·class元素下·所有内容·返回字符串·根据字符串匹配超链接的文本内容
'''
url = "https://book.zongheng.com/showchapter/1243826.html"
context = requests.get(url).content.decode("utf-8")
result1 = re.findall(r"<ul class=\"chapter-list clearfix\">.*?</ul>", context, re.S)
a_href = re.findall(r'<a.*?>.*?</a>', result1[0])
data_list = []
left_text = ">"
right_text = "</a>"
for item in a_href:
    result = re.findall(r">.*?</a>", item)
    for item1 in result:
        item1 = item1.replace(left_text, "", 1).replace(right_text, "", 1)
        data_list.append(item1)
for item in data_list:
    print(item)
print("爬取成功:", len(data_list))

结果呈现,可以看到138条都筛选出来了。

获取方法2:

通过【()】的方法直接获取我们需要的内容

import re
import requests

'''
获取某网站·某个·class元素下·所有内容·返回字符串·根据字符串匹配超链接的文本内容
'''
url = "https://book.zongheng.com/showchapter/1243826.html"
context = requests.get(url).content.decode("utf-8")
result1 = re.findall(r"<ul class=\"chapter-list clearfix\">.*?</ul>", context, re.S)
a_href = re.findall(r'<a.*?>.*?</a>', result1[0])


**一、Python所有方向的学习路线**

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

![img](https://img-blog.csdnimg.cn/1d40facda2b84990b8e1743f5487d455.png)  
![img](https://img-blog.csdnimg.cn/0fc11d4a31bd431dbf124f67f1749046.png)

**二、Python必备开发工具**

工具都帮大家整理好了,安装就可直接上手!![img](https://img-blog.csdnimg.cn/ff266f529c6a46c4bc28e5f895dec647.gif#pic_center)

**三、最新Python学习笔记**

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

![img](https://img-blog.csdnimg.cn/6d414e9f494742db8bcc3fa312200539.png)

**四、Python视频合集**

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

![img](https://img-blog.csdnimg.cn/a806d9b941c645858c61d161aec43789.png)

**五、实战案例**

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。![img](https://img-blog.csdnimg.cn/a353983317b14d3c8856824a0d6186c1.png)

**六、面试宝典**

![在这里插入图片描述](https://img-blog.csdnimg.cn/97c454a3e5b4439b8600b50011cc8fe4.png)

![在这里插入图片描述](https://img-blog.csdnimg.cn/111f5462e7df433b981dc2430bb9ad39.png)

###### **简历模板**![在这里插入图片描述](https://img-blog.csdnimg.cn/646863996ac44da8af500c049bb72fbd.png#pic_center)




**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

**[需要这份系统化学习资料的朋友,可以戳这里无偿获取](https://bbs.csdn.net/topics/618317507)**

**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**
  • 19
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值