爬虫前的小准备-----re 正则表达式

最新推荐文章于 2024-07-24 10:38:58 发布

乾杯 []~457

最新推荐文章于 2024-07-24 10:38:58 发布

阅读量298

点赞数

分类专栏：爬虫文章标签：爬虫 python 正则表达式

本文链接：https://blog.csdn.net/qq_63536491/article/details/123807043

版权

爬虫专栏收录该内容

9 篇文章 0 订阅

订阅专栏

我们来整理一下爬虫所用到的一些重点

元字符

1 “  .  ”匹配除换行符以外的任意字符，未来在python的re模块中是一个坑.

2 \d 匹配数字

3 ^匹配字符串的开始

4 $匹配字符串的结尾

5 a l b匹配字符α或字符h

6 () 匹配括号内的表达式，也表示一个组

量词：控制前面元字符出现的次数

其实比较重要的是惰性匹配（前后离他最近的，用到了回溯算法）

1. 贪婪匹配（后离他最远的）

**2. 惰性匹配(找最近的，相当于（【字】.*?【字】)，只要符合这种的，会被找到**

前后离他最近的，用到了回溯算法(常用)

import re
message = """<a><div>中国移动</div><div>10086</div></a>
             <a><div>中国联通</div><div>10010</div></a>
"""

obj = re.compile(r'<div>(?P<name>.*)</div><div>(?P<id>\d+)</div>')
# result = obj.findall(message)  # 返回一个列表   findall
# print(result)
result = obj.finditer(message) # 预加载可以减少内存消耗
print(result)  # 返回一个迭代器  (若要显示（数据）有个分组标记)# (?P<名字>正则)
for item in result:
    # print(item)
    print(item.group("name"))
    print(item.group("id"))

之后会在resquests之后讲一下案例

乾杯 []~457

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫前的小准备-----re 正则表达式

我们来整理一下爬虫所用到的一些重点推荐一个小网站，可以进行练手在线正则表达式测试https://tool.oschina.net/regex/元字符1 “ . ”匹配除换行符以外的任意字符，未来在python的re模块中是一个坑.2 \d 匹配数字3 ^匹配字符串的开始4 $匹配字符串的结尾5 al b匹配字符α或字符h6 () 匹配括号内的表达式，也表示一个组量词：控制前面元字符出现的次数其实比较重要的是惰性匹配（前后离他最近的，用到了...
复制链接

扫一扫