Python爬虫(正则化模块re)

本文介绍了Python的re模块,讲解了正则表达式的基础,包括原子、元字符、模式修正符、贪婪模式与懒惰模式,以及正则表达式函数的使用。通过实例展示了如何在爬虫中运用正则提取数据,并预告了一个爬虫实战,涉及获取电影信息并保存到CSV文件。
摘要由CSDN通过智能技术生成

正则表达式

序言

 让大家久等了,萌萌小编又带来干货给大家了,大家准备双手接住了!这一次,我要介绍python中的re模块,还要隆重介绍正则表达式怎么在爬虫中使用,最后介绍一个爬虫小实战,具体是什么实战,请大家往下翻阅吧。

基础部分

 世界上的信息非常多,而我们关注的信息有限。假如我们希望只提取关注的数据,此时可以通过一些表达式进行提取,正则表达式就是其中一种进行数据筛选的表达式。当然正则表达式也有缺点,正则表达式只适合匹配文本字面,不适合匹配文本意义:像匹配url,email这种纯文本的字符就很好,但比如匹配多少范围到多少范围的数字,如果你这个范围很复杂的话用正则就很麻烦。或者匹配html,这个是很多人经常遇到的,写一个复杂匹配html的正则很麻烦,不如使用针对特定意义的处理器来处理(比如写语法分析器,dom分析器等);但是,使用正则表达式还是有好处的,比如说方便。

原子

 原子是正则表达式中最基本的组成单位,每个正则表达式中至少要包含一个原子
 原子类型:所有打印字符(a-z,A-Z,0-9,-,*,&@!()等)和非打印字符(换行、Tab键等)都可以作为原子;还有通用字符作为原和原子表。

import re  #首先要导入re包
# 普通字符作为原子
string = 'feng yun xiong ba tian xia'
pat = 'yun'
rst = re.search(pat,string)
print(rst)  #使用re.search()函数寻找rst位于字符串的位置
# # #
pat1 = 'shuang'
rst1 = re.search(pat1,string)
print(rst1)  #使用re.search()函数寻找pat1位于字符串的位置

<re.Match object; span=(5, 8), match=‘yun’>
None

# 非打印字符作为原子
# 最常见的有:\n换行符,\t 制表符(就是我们的tab)
string = '''feng yun
xiong ba tian xia'''     # 三引号可以注释,同时也表示换行的字符串
pat = '\n'
rst = re.search(pat,string)   # 使用re.search()函数寻找\n位于字符串的位置
print(rst)

<re.Match object; span=(8, 9), match=’\n’>

# 通用字符作为原子
'''
\w 匹配任意一个字母、数字或下划线
\W 除字母、数字或下划线以外的任意一个字符
\d 匹配十进制数
\D 除十进制数以外的任意一个字符
\s 匹配任意一个空白字符
\S 除空白字符以外的任意一个字符
'''
string = 'feng yun xiong ba tian xia di 2 bu di 13 ji'
pat = '\w\w\s\d' #找到一个前两个为字母或数字第三位为空格第四位为数字的字符串
rst = re.search(pat,string)  
print(rst)

<re.Match object; span=(27, 31), match=‘di 2’>

# 原子表[]
string = 'feng yun xiong ba tian xia di 2 bu di 13 ji'
pat = 'y[vuw]n'  #自定义原子表
rst = re.search(pat,string)
print(rst)
# #
pat1 = '[yun]'   #自定义原子表
rst1 = re.search(pat1,string)
print(rst1)
# #
pat2 = '[^yun]'  #自定义原子表
rst2 = re
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值