正则表达式

最新推荐文章于 2024-09-15 22:31:42 发布

dianzhenggan0024

最新推荐文章于 2024-09-15 22:31:42 发布

阅读量121

点赞数

文章标签： python 爬虫

原文链接：http://www.cnblogs.com/rinvay/p/10238730.html

版权

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。

Python 自1.5版本起增加了re 模块，它提供 Perl 风格的正则表达式模式。

re 模块使 Python 语言拥有全部的正则表达式功能。

compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。

re 模块也提供了与这些方法功能完全一致的函数，这些函数使用一个模式字符串做为它们的第一个参数。

1.re.match函数

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

语法：

re.match(pattern, string, flags=0)

pattern：匹配的正则表达式
string：要匹配的字符串。
flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。参见：正则表达式修饰符 - 可选标志

正则表达式修饰符 - 正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志：

修饰符	描述
re.I	使匹配对大小写不敏感
re.L	做本地化识别（locale-aware）匹配
re.M	多行匹配，影响 ^ 和 $
re.S	使 . 匹配包括换行在内的所有字符
re.U	根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

转自：http://www.runoob.com/python/python-reg-expressions.html#flags

附上豆瓣书评爬虫小实验：

import requests
from bs4 import BeautifulSoup
import re
a=0
b=0
s=requests.get('https://book.douban.com/subject/30245411/comments/')
t=BeautifulSoup(s.text,'lxml')
pattern=t.find_all('span','short')
for item in pattern:
    print(pattern[b])
    b+=1
pattern_s=re.compile('<span class="user-stars allstar(.*?) rating"')
p=re.findall(pattern_s,s.text)
for star in p:
    print(star)
    a+=int(star)
print(a)