网络爬虫_re正则表达式

最新推荐文章于 2024-04-30 15:06:10 发布

大西觉得海星

最新推荐文章于 2024-04-30 15:06:10 发布

阅读量441

点赞数

分类专栏： python 爬虫文章标签： python re 正则表达式

本文链接：https://blog.csdn.net/tyz_tyz/article/details/80026034

版权

python 同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

爬虫

9 篇文章 0 订阅

订阅专栏

"""正则表达式re

概念
    检索符合某个规则的字符串。
    通用的字符串表达框架。
    简洁表达一组字符串。

常用
    表达文本类型的特征。
    同时查找或替换一组字符串。
    匹配字符串全部或部分。"""


# --------------------------------------
"""正则表达式语法

常用操作符
    .    # 表示任何单字符。
    []   # 字符集，对单个字符给出取值范围。[abc][a-z]
    [^]  # 非字符集。[^abc]除了abc以外的单个字符
    *    # 前一个字符0次或无限次扩展。
    +    # 前一个字符1次或无限次扩展。
    ?    # 前一个字符0次或1次扩展。
    |    # 左右表达式任意一个，等同于或。
    
    {m}  # 扩展前一个字符m次，ab{2}c表示abbc。
    {m, n}  # 扩展前一个字符m或n，ab{1, 2}c表示abc和abbc。
    ^    # 匹配字符串开头，^abc表示字符串abc且在一个字符串开头。
    $    # 匹配字符串结尾，abc$表示字符串abc且在一个字符串结尾。
    ()   # 分组标记，(abc|def)表示abc和def。
    \d   # 数字，等价于[0-9]。
    \w   # 单词字符，等价于[A-Za-z0-9]。

pattern = r'abc(.*?)abc'  # 匹配到abc和abc之间的部分，不会匹配到abc
pattern = r'abc.*?abc'  # 匹配abc到abc，包括两端abc六个字符。
    
    
实例
P(Y|YT|YTH|YHTO)?N  # 'PN' 'PYN' 'PYTN' 'PYTHN' 'PYTHON'
PYTHON+  # 'PYTHON' 'PYTHONN' 'PYTHONNN' ... ...
PY[TH]ON  # 'PYTON' 'PYHON'
PY{:3}N  # 'PN' 'PYN' 'PYYN' 'PYYYN'

IP地址
\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}  # 表示四个用.分隔开的三位数。
精确表示
0-99: [1-9]?\d
100-199: 1\d{2}
200-249: 2[0-4]\d
250-255: 25[0-5]
IP: (([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5]).){3}([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5])
# {3}重复三个0-255的数字后加'.' 最后加一个0-255的数字。"""



# ----------------------------------------------------
"""re库主要功能函数
re.search()  # 搜索第一个匹配正则表达式的对象。
re.match()  # 只在开始位置搜索匹配对象。
re.findall()  # 搜索整个字符串，返回全部匹配对象, 返回列表类型。
re.split()  # 按匹配结果进行分割，返回列表类型。
re.finditer()  # 搜索字符串，返回第一个匹配结果的迭代类型。
re.sub()  # 替换所有匹配字符串，返回替换后的字符串。


pattern  # 正则表达式字符串，原生字符串。
string  # 要匹配的字符串。
flags  # 正则表达式使用时的控制标记。

re.search(pattern, string, flags=0)
re.match(pattern, string, flag=0)
re.sub(pattern, repl, string, count=0, flags=0)
repl  # 替换匹配字符串的字符串。
count  # 替换匹配的最大次数。"""


import re
match = re.search(r'[1-9]\d{5}', 'BIT 100081')
print(match.span())  # (4, 10)匹配到的字符位置
print(match.group())


match1 = re.match('[1-9]\d]{5}', 'BIT 100081')
if match1:  # 如果match1中没有匹配到元素，输出None.
    print(match.group())
else:
    print('None')


li = re.findall(r'[1-9]\d{5}', 'BIT 100081 IAS 124565')
print(li)  # findall返回的是一个列表


li1 = re.split(r'[1-9]\d{5}', 'BIT 100081 IAS 124565')
print(li1)  # ['BIT ', ' IAS ', ''] 将匹配到的部分去掉，分割剩下的字符串。


r"""（字符串前面加r表示使用真实字符，不作转义。例如\t为真实字符，不作为制表符。）
"."         匹配除换行符以外的字符。
[]          字符集合，匹配中括号中任意一个包含的字符。
[a-z]       匹配任意一个小写字母。
[A-Z]       匹配任意一个大写字母。
[0-9]       匹配任意一个数字。
[0-9a-zA-Z] 匹配任意一个大写字母、小写字母、数字。
[0-9a-zA-Z_]匹配任意一个大写字母、小写字母、数字和下划线。
[^sam]      匹配除了's', 'a', 'm'这几个字母外所有字符。
            ^为脱字符，表示不匹配集合中的字符。
\d          相当于[0-9]。
\D          相当于[^0-9]。
\w          相当于[0-1a-zA-Z_]数字字母和下划线。
\W          相当于[^0-9a-zA-Z_]非数字、字母和下划线。
\s          [ \f\n\r\t]匹配任意空白字符（空格，换行，回车，换页，制表）。
\S          [^ \f\n\r\t]匹配任意非空白字符（空格，换行，回车，换页，制表）。
"""
 
# 匹配多个字符
"""
(xyz)    xyz作为一个整体匹配。
x?       匹配0个或者1个x。
x*       匹配0个或者任意多个x（.*表示匹配0个或者任意多个字符，换行符除外）。
x+       匹配至少一个x
x{n}     匹配n个x
x{n,m}   匹配至少n个至多m个x
x|y      匹配x或者y
"""
 
 
# 注释： part2
str = " part2 "
# 第2,3个/为转义字符，表示*作为字符串，并不是正则表达式
print(re.findall("/", str))
 
    #### finditer函数 ####
import re
"""
re.finditer函数
格式：finditer(patter, string, flags)
功能：与findall类似，扫描整个字符串，返回一个迭代器。
参数：
patter：匹配的正则表达式
string：匹配的字符串
flags：标志位
"""
str = "sam is a good man, sam is a nice man, sam is a very handsome man!"
d = re.finditer(r"(sam)", str)
while True:
    try:
        l = next(d)
        print(l)
    except StopIteration as e:
        break
 
    #### 替换字符串 ####
import re
 
"""
字符串的替换和修改
sub(pattern, repl, string, count=0, flags=0)
subn(pattern, repl, string, count=0, flags=0)
参数：
    pattern： 正则表达式
    repl： 指定的用来替换的字符串
    string： 字符串
    count： 最多替换次数
    flags： 标志位
功能：在目标字符串中用正则表达式的规则匹配字符串，
    并替换成指定的字符串，如果不指定次数则匹配替换全部字符换 
区别：sub返回被替换的字符串
    subn返回一个元组，第一个元组为被替换的字符串，第二个元组为替换次数
"""
str = "sam is a good man, sam is a nice man, sam is a very handsome man!"
sub = re.sub("sam", "Tom", str, count=2)
subn = re.subn("sam", "Tom", str, count=1)
print(sub)
print(subn)

大西觉得海星

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫_re正则表达式

"""正则表达式re概念检索符合某个规则的字符串。通用的字符串表达框架。简洁表达一组字符串。常用表达文本类型的特征。同时查找或替换一组字符串。匹配字符串全部或部分。"""# --------------------------------------"""正则表达式语法常用操作符 . # 表示任何单字符...
复制链接

扫一扫

专栏目录