正则表达式(2)

最新推荐文章于 2023-06-13 17:03:50 发布

静听山水

最新推荐文章于 2023-06-13 17:03:50 发布

阅读量306

点赞数

分类专栏： # python01 文章标签： python

本文链接：https://blog.csdn.net/qq_41081716/article/details/103213247

版权

python01 专栏收录该内容

63 篇文章

订阅专栏

re.findall:https://www.cnblogs.com/xieshengsen/p/6727064.html

自己爬虫遇到的一些例子：

<a href="/song\?id=\d+">(.*?)</a>，其中？匹配需要转义，\d表示匹配[0-9]，\d+表示匹配多位数字

</div>
</div>

</dd>

这是猫眼电影爬虫的匹配，要得到电影排名，电影链接，电影名称，电影主演，电影上映时间等信息，用正则进行匹配（感觉很随意，用了很多贪婪匹配）：

<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
+ '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
+ '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>'

1. 去掉逗号和空格

[]：匹配内部的任一字符或子表达式

+：匹配前一个字符或子表达式多次
import re
some_text = 'a,b,,,,c d'
reObj = re.compile('[, ]+')
list=reObj.split(some_text)
print(list)
import re
some_text = 'a,b,,,,c d'
re.split('[, ]+',some_text)
输出：['a', 'b', 'c', 'd']

2.找出含有某个字母的单词

\w：匹配任意字母数字下划线

*：匹配前面的字符或者子表达式0次或者多次
import re
text="JGod is a handsome boy ,but he is a ider"
print re.findall(r'\w*o\w*',text)  #查找有o的单词
import re
text="JGod is a handsome boy ,but he is a ider"
regex=re.compile(r'\w*o\w*')   #r 表示原生字符串
print regex.findall(text)
输出： ['JGod', 'handsome', 'boy']

正则表达式中的三组括号把匹配结果分成三组，group() 同group(0)就是匹配正则表达式整体结果,group(1):列出第一个括号匹配部分，group(2) 列出第二个括号匹配部分，group(3) 列出第三个括号匹配部分。若没有匹配成功的，re.search（）返回None。

[0-9]：0123456789任意之一

[a-z]：小写字母任意之一

[A-Z]：大写字母任意之一

注意：这里只能用search，返回的是str类型，后面有group函数，而find和findall函数返回的都是列表，不能用group
import re
a = "123abc456"
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0)   #123abc456,返回整体
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(1)   #123
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(2)   #abc
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(3)   #456