python爬虫-16-python之正则表达式,以最快的速度获取有效数据(上)

老话说得好:世界上分为两种人,一种是会正则的,一种是不会正则的。

1、介绍

又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexpRE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在pythonl中就内建了一个功能强大的正则表达式引擎re,我们现在就开始该模块的学习。

图片

2、pyhton匹配某个字符串

从指定字符串第一个字符开始匹配,如果第一个字符没有匹配的就会报错。

方法:

直接写匹配内容即可

示例:

import re

Jier = 'yunweijia'
Suner = re.match('yun', Jier)
print(Suner.group())

输出结果如下:

yun

3、python从字符串头匹配

方法:

match

示例:

import re

Jier = 'yunweijia'
Suner = re.match('un', Jier)
print(Suner.group())

输出结果如下:

Traceback (most recent call last):
  File "C:\Users\22768\Desktop\python\python爬虫\004-正则.py", line 11, in <module>
    print(Suner.group())
AttributeError: 'NoneType' object has no attribute 'group'

因为当它从字符串第一个字符开始匹配的时候没有匹配到,故而报错了,我们可以将他print出来,如下:

import re

Jier = 'yunweijia'
Suner = re.match('un', Jier)
print(Suner)

输出结果如下:

None

4、python从头开始递归整个字符串匹配

方法:

search
search(pattern, string, flags=0)
# flags是可选的,他的可选参数如下:
    # re.I 忽略大小写
    # re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
    # re.M 多行模式
    # re.S 即为 . 并且包括换行符在内的任意字符(. 不包括换行符)
    # re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
    # re.X 为了增加可读性,忽略空格和 # 后面的注释

示例:

import re

Jier = 'yunweijiaunun'
Suner = re.search('un', Jier)
print(Suner.group())

输出结果如下:

un

5、pyhton匹配任一字符串

方法:

. # 不能匹配到换行符哈,需要注意

示例:

import re

Jier = 'yunweijia'
Suner = re.match('yu.w', Jier)
print(Suner.group())

输出结果如下:

yunw

6、pyhton匹配任意的数字

方法:

\d

示例:

import re

Jier = 'yunweijia0909'
Suner = re.search('\d{4}', Jier)  # 匹配4个连续的数字
print(Suner.group())

输出结果如下:

0909

7、pyhton匹配任意的非数字

方法:

\D

示例:

import re

Jier = 'yunweijia0909'
Suner = re.search('\D{4}', Jier)  # 匹配4个连续的非数字
print(Suner.group())

输出结果如下:

yunw

8、pyhton匹配空白字符

空白字符包括但不限于下面的内容:

\n, \t, \r 空格

方法:

\s

示例:

import re

Jier = 'yunweijia\t0909'
Suner = re.search('\s', Jier)
print(Suner)
print(Suner.group())

输出结果是空的,但是并不是没有,只是输出是空的,看不到罢了。

<re.Match object; span=(9, 10), match='\t'>
 


9、pyhton匹配的是a-zA-Z以及数字和下划线

方法:

\w

示例:

import re

Jier = '09yunweijia0909'
Suner = re.search('\w{3}', Jier)
print(Suner.group())

输出结果如下:

09y

10、pyhton不匹配a-zA-Z以及数字和下划线

方法:

剩余内容请转至VX公众号 “运维家” ,回复 “178” 查看。

------ “运维家” ,回复 “178” ------
------ “运维家” ,回复 “178” ------
------ “运维家” ,回复 “178” ------

linux系统下,mknodlinux,linux目录写权限,大白菜能安装linux吗,linux系统创建文件的方法,领克linux系统怎么装软件,linux文本定位;
ocr识别linux,linux锚定词尾,linux系统使用记录,u盘有linux镜像文件,应届生不会Linux,linux内核64位,linux自启动管理服务;
linux计算文件夹大小,linux设备名称有哪些,linux能用的虚拟机吗,linux系统进入不了命令行,如何创建kalilinux,linux跟so文件一样吗。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

运维家

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值