爬虫笔记day03

最新推荐文章于 2024-08-15 01:55:01 发布

废材终结者

最新推荐文章于 2024-08-15 01:55:01 发布

阅读量599

点赞数 2

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/hssf_xxy/article/details/121461937

版权

爬虫专栏收录该内容

15 篇文章 0 订阅

订阅专栏

"本文介绍了Python中使用正则表达式re模块进行数据提取的方法，包括findall()函数和compile()函数的使用。同时讲解了正则表达式的元字符，如.dsS等，并通过实例演示了如何从HTML代码中提取文字，探讨了贪婪匹配与非贪婪匹配的区别，并展示了分组提取的技巧。"

摘要由CSDN通过智能技术生成

正则表达式re模块使用

使用方法1：r_list=re.findall(‘正则表达式’,html,re.S)
使用方法2：pattern=re.compile(‘正则表达式’,re.S)
r_list=pattern.findall(html)
注意：
1、使用findall()方法得到的结果一定为列表
2、re.S作用为使得正则表达式元字符可匹配到‘\n’在内的所有字符

正则表达式中爬虫常用的元字符
. 任意一个字符（不包括换行）
\d 一个数字
\s 空白字符
\S 非空白字符
[] 包含[]内容
* 出现0次或多次
+ 出现1次或多次
\w 普通字符

#例子：匹配任意一个字符的正则表达式（这里都采用第二种书写格式，比较常用）
#方法一：
import  re
pattern=re.compile('[\s\S]') #\s空白字符 \S非空白字符 []两条件组合
result=pattern.findall('fdrfv\n')
print(result)

#方法二：
import re
pattern=re.compile('.',re.S) #.任意多个字符不包括\n，re.S包含\n
result=pattern.findall('fdrfv\n')
print(result)

例子：

假设我们有一段html代码，但是我们只需要里面文字的部分，不要标签，那么我们就需要使用正则表达式分组
注意：在正则表达式中分贪婪匹配和非贪婪匹配
贪婪匹配：例如两行文字，会组成一个列表元素[‘p1p2’] 书写格式：一般书写模式
非贪婪匹配：两行元素就分为两个列表元素[‘p1’,‘p2’] 书写格式：需要比贪婪匹配末尾多一个？

正则表达式分组则只需在需要的提取的部分加上()即可

#例子：提取html代码中的文字
import re
html=""" <div><p>p1</p></div>
        <div><p>p2</p></div>  
"""
#注意一定要加上re.S
#贪婪匹配提取文字：
pattern1=re.compile('<div><p>(.*)</p></div>',re.S)
r_list1=pattern1.findall(html)
print(r_list1)

#非贪婪匹配
pattern2=re.compile('<div><p>(.*?)</p></div>',re.S)
r_list2=pattern2.findall(html)
print(r_list2)

废材终结者

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
爬虫笔记day03

正则表达式re模块使用使用方法1：r_list=re.findall(‘正则表达式’,html,re.S)使用方法2：pattern=re.compile(‘正则表达式’,re.S)r_list=pattern.findall(html)注意：1、使用findall()方法得到的结果一定为列表2、re.S作用为使得正则表达式元字符可匹配到‘\n’在内的所有字符正则表达式中爬虫常用的元字符. 任意一个字符（不包括换行）\d 一个数字\s 空白字符\S 非空白字符[] 包含[]内容
复制链接

扫一扫