python 爬虫----- 数据解析 RE解析(正则表达式)

Regular Rxpression 正则表达式(字符串语法匹配)

常用元字符:

 量词:

 贪婪匹配(到最后一个匹配项停止,即全部匹配)和惰性匹配(匹配尽量少的对象,使用到回溯算法:先全部匹配再找到最小的匹配)

 RE 正则表达式:

Python正则表达式前的 r 表示原生字符串(rawstring),该字符串声明了引号中的内容表示该内容的原始含义,避免了多次转义造成的反斜杠困扰。

  • re中的相关操作

  • findall()
  • finditer()
  • search()
  • match()
  • 预加载(编译)一个正则表达式
  • 获得想要的正则表达式获取的数据

import re

# findall() 返回所有符合正则表达式的内容 列表
lst = re.findall(r"\d+", "my phone number is 10086 or 10000")
print(lst)

# finditer() 返回所有符合正则表达式的内容 迭代器(也是match对象)

it = re.finditer(r"\d+", "my phone number is 10086 or 10000")

for i in it:
    print(i.group())#在迭代器中用.group拿数据
# search() 返回一个符合正则表达式的内容 match
s = re.search(r"\d+", "my phone number is 10086 or 10000")
print(s.group())  #python中的match对象是一次匹配的结果,其包含了很多匹配的相关信息。

#match() 是从头开始匹配一个符合正则表达式的内容
s = re.match(r"\d+", "10086 or 10000")
print(s.group())

#预加载(编译)一个正则表达式
obj = re.compile(r"\d+")
s = obj.match("10086 or 10000")
print(s.group())


s = """
<div class='jay'><span id='1'>郭麒麟</span></div>
<div class='jj'><span id='1'>郭麒</span></div>
<div class='ja'><span id='1'>郭麟</span></div>
<div class='jy'><span id='1'>麒麟</span></div>
<div class='jjjy'><span id='1'>麟</span></div>
"""

#获得想要的正则表达式获取的数据
# (?P<你起的分组名字>.*?(任意一个正则表达式 )) 表示将.*?匹配的东西储存在分组中,可以在.gruop(分组)中调用
obj = re.compile(r"<div class='(?P<wadada>.*?)'><span id='(?P<wakaka>.*?)'>(?P<wahaha>.*?)</span></div>", re.S)#re.s让.可以匹配换行符

result = obj.finditer(s)
for it in result:
    print(it.group("wahaha"))
    print(it.group("wakaka"))
    print(it.group("wadada"))
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值