re模块

最新推荐文章于 2024-05-21 22:48:52 发布

a86123969

最新推荐文章于 2024-05-21 22:48:52 发布

阅读量95

点赞数

文章标签：爬虫

原文链接：http://www.cnblogs.com/qicun/p/9494214.html

版权

注:要调用re模块时,需在py文件开头加上 import re,整个文件加一次就够了

re模块下的常用方法

一丶findall

　　匹配所有,每一项都是列表的一个元素

　　findall(正则表达式,待匹配的字符串)将满足匹配条件的结果放到列表里

import re
s = "kuci花13买了一瓶82年的矿泉水"
ret = re.findall("\d+",s)
ret1 = re.findall("[0-9A-Za-z]+",s)
print(ret)
print(ret1)

二丶search

　　只匹配从左到右的第一个,得到的不是直接的结果,而是一个变量,通过这个变量的group方法来获取结果

s = "kuci花13买了一瓶82年的矿泉水"
ret = re.search("\d+",s)
print(ret)      #返回的是变量   <_sre.SRE_Match object; span=(5, 7), match='13'>
print(ret.group())      #返回结果  13

　　如果没有匹配到,则会返回None,使用group会报错

s = "kuci花13买了一瓶82年的矿泉水"
ret = re.search("\b+",s)
print(ret)
print(ret.group())

三丶match

　　从头开始匹配,相当于search中的表达式加上一个^,结果是一样的

ret = re.match("[A-Za-z]+","kuqi的导弹zong是到处乱飞")
print(ret)      #<_sre.SRE_Match object; span=(0, 4), match='kuqi'>
print(ret.group())      #kuqi

ret2 = re.search("^[A-Za-z]+","kuqi的导弹zong是到处乱飞")
print(ret2)     #<_sre.SRE_Match object; span=(0, 4), match='kuqi'>
print(ret2.group())     #kuqi

四丶字符串处理的扩展:替换丶切割

　　split:

# split
s = "哪吒|金吒|木吒|"
print(s.split("|"))     #['哪吒', '金吒', '木吒', '']
s = "衣服82鞋子42裤子49"
ret = re.split("\d+",s) #['衣服', '鞋子', '裤子', '']
print(ret)

　　sub/subn:

# sub
#sub (所要替换的内容,替换成的内容,所要替换的字符串,替换的次数(默认为全部))
ret = re.sub("\d","A","99dasdasdml6346vasd")
ret1 = re.sub("\d","A","99dasdasdml6346vasd",2)
print(ret)      #AAdasdasdmlAAAAvasd
print(ret1)     #AAdasdasdml6346vasd

#subn
#返回一个元组,返回结果的第二个元素是替换的次数
ret2 = re.subn("\d","A","99dasdasdml6346vasd")
print(ret2)     #('AAdasdasdmlAAAAvasd', 6)

五丶re模块的进阶:时间/空间

　　compile:

　　　　节省你使用正则表达式解决问题的时间

　　　　将正则表达式编译成字节码,在多次使用的过程中,不会多次编译

ret = re.compile("\d+")  #已经完成编译了
print(ret)      #re.compile('\\d+')
res = ret.findall("kuqi花13买了一瓶82年的矿泉水")
print(res)      #['13', '82']
res = ret.search('kuqi花13买了一瓶82年的矿泉水')
print(res.group())      #13

　　finditer:

　　　　节省你使用正则表达式解决问题的空间/内存

ret = re.finditer("\d+","diaf646afaf464afa6264yy42g424u")#返回一个迭代器
print(ret)          #<callable_iterator object at 0x00000220CCDAA978>
print(next(ret).group())    #查看第一个结果  646
print(next(ret).group())    #查看第二个结果  464
print([i.group() for i in ret])     #查看剩余所有结果  ['6264', '42', '424']

六丶分组在re模块中的使用

　　对于正则表达式来说,有些时候我们需要进行分组,来整体约束y一组字符出现的次数

import re
s = '<a>wahaha</a>'  # 标签语言 html 网页
ret = re.search('<(\w+)>(\w+)</(\w+)>',s)
print(ret.group())  # 所有的结果
print(ret.group(1)) # 数字参数代表的是取对应分组中的内容  a
print(ret.group(2)) #wahaha
print(ret.group(3)) #a

# 为了findall也可以顺利取到分组中的内容,有一个特殊的语法,就是优先显示分组中的内容
ret = re.findall('(\w+)',s)
print(ret)      #['a', 'wahaha', 'a']
ret = re.findall('>(\w+)<',s)
print(ret)      #['wahaha']

# 取消分组优先(?:正则表达式)
ret = re.findall('\d+(?:\.\d+)?','1.234*4') #['1.234', '4']
ret1 = re.findall('\d+(\.\d+)?','1.234*4')  #['.234', '']
print(ret)
print(ret1)

# 分组命名 (?P<这个组的名字>正则表达式)
s = '<a>wahaha</a>'
ret = re.search('>(?P<con>\w+)<',s)
print(ret.group(1))
print(ret.group('con'))
# 使用前面的分组 要求使用这个名字的分组和前面同名分组中的内容匹配的必须一致
pattern = '<(?P<tab>\w+)>(\w+)</(?P=tab)>'
ret = re.search(pattern,s)
print(ret)

# 精准的取到整数 过滤掉小数
ret=re.findall(r"\d+\.\d+|\d+","1-2*(60+(-40.35/5)-(-4*3))")
print(ret)
#['1', '2', '60', '40.35', '5', '4', '3']
ret=re.findall(r"\d+\.\d+|(\d+)","1-2*(60+(-40.35/5)-(-4*3))")
ret.remove('') #将""删掉
print(ret)
#['1', '2', '60', '5', '4', '3']

七丶爬虫实例

import re
from urllib.request import urlopen

def getPage(url):   # 获取网页的字符串
    response = urlopen(url)
    return response.read().decode('utf-8')

def parsePage(s):
    ret = com.finditer(s)  # 从s这个网页源码中 找到所有符合com正则表达式规则的内容 并且以迭代器的形式返回
    for i in ret:
        yield {
            "id": i.group("id"),
            "title": i.group("title"),
            "rating_num": i.group("rating_num"),
            "comment_num": i.group("comment_num"),
        }

def main(num):  # 0  25 50  # 这个函数执行10次,每次爬取一页的内容
    url = 'https://movie.douban.com/top250?start=%s&filter=' % num
    response_html = getPage(url)   # response_html就是这个url对应的html代码 就是 str
    ret = parsePage(response_html) # ret是一个生成器
    print(ret)
    f = open("move_info7", "a", encoding="utf8")
    for obj in ret:
        print(obj)
        data = str(obj)
        f.write(data + "\n")
    f.close()

com = re.compile(
        '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
        '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>', re.S)

count = 0
for i in range(10):
    main(count)
    count += 25

爬虫实例

转载于:https://www.cnblogs.com/qicun/p/9494214.html

a86123969

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
re模块

注:要调用re模块时,需在py文件开头加上importre,整个文件加一次就够了re模块下的常用方法一丶findall　　匹配所有,每一项都是列表的一个元素　　findall(正则表达式,待匹配的字符串)将满足匹配条件的结果放到列表里import res = "kuci花13买了一瓶82年的矿泉水"ret = re.findall("\d+",s)...
复制链接

扫一扫