python正则表达边界_python的re正则表达

本文详细介绍了Python中的正则表达式,包括字符表示、数量表示和边界匹配等核心概念,并展示了`re`模块的常用方法,如`match`、`search`、`sub`和`split`。通过实例解析了正则表达式在提取网址、邮箱验证等场景的应用,强调了正则表达式的灵活性和在数据处理中的重要性。
摘要由CSDN通过智能技术生成

正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。

Regular Expression的“Regular”一般被译为“正则”、“正规”、“常规”。此处的“Regular”即是“规则”、“规律”的意思,Regular Expression即“描述某种规则的表达式”之意。

表示字符

字符

功能

.

匹配任意1个字符(除了\n)

[ ]

匹配[ ]中列举的字符

\d

匹配数字,即0-9

\D

匹配非数字,即不是数字

\s

匹配空白,即 空格,tab键

\S

匹配非空白

\w

匹配单词字符,即a-z、A-Z、0-9、_

\W

匹配非单词字符

表示数量

匹配多个字符的相关格式

字符

功能

*

匹配前一个字符出现0次或者无限次,即可有可无

+

匹配前一个字符出现1次或者无限次,即至少有1次

?

匹配前一个字符出现1次或者0次,即要么有1次,要么没有

{m}

匹配前一个字符出现m次

{m,}

匹配前一个字符至少出现m次

{m,n}

匹配前一个字符出现从m到n次

表示边界

字符

功能

^

匹配字符串开头

$

匹配字符串结尾

\b

匹配一个单词的边界

\B

匹配非单词边界

匹配分组

字符

功能

|

匹配左右任意一个表达式

(ab)

将括号中字符作为一个分组

\num

引用分组num匹配到的字符串

(?P)

分组起别名

(?P=name)

引用别名为name分组匹配到的字符串

在Python中需要通过正则表达式对字符串进行匹配的时候,可以使用一个模块,名字为re

python的re模块常用方法:

re.match

是用来进行正则匹配检查的方法,若字符串匹配正则表达式,则match方法返回匹配对象(Match Object),否则返回None(注意不是空字符串"")。re.match(正则表达式,要匹配的字符串)

re.search

re.search函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回,如果字符串没有匹配,则返回None。

re.sub

将匹配到的字符串替换,有三个参数(正则表达式,替换成的内容,原字符串)

re.split

可以使用re.split来分割字符串,有两个参数(分割条件,要分割的字符串)。会分隔成一个列表

re.findall

re.findall可以获取字符串中所有匹配的字符串。有两个参数(匹配条件,要匹配的字符串)

下面是几道练习题

# 有一批网址:

#

# http://www.interoem.com/messageinfo.asp?id=35

# http://3995503.com/class/class09/news_show.asp?id=14

# http://lib.wzmc.edu.cn/news/onews.asp?id=769

# http://www.zy-ls.com/alfx.asp?newsid=377&id=6

# http://www.fincm.com/newslist.asp?id=415

# 需要 正则后为:

#

# http://www.interoem.com/

# http://3995503.com/

# http://lib.wzmc.edu.cn/

# http://www.zy-ls.com/

# http://www.fincm.com/

import re

geturl = re.findall(r'http:\/\/.*?\/',"http://www.fincm.com/newslist.asp?id=415")

print(geturl)

提取主要网址

import re

#提取url地址

imgurl = '1213973_201611131917_small.jpg'

url = re.split(r'"',imgurl)

i = 1

for ls in url:

if(i%2 == 0):

if(re.match("^(http|https)",ls)):

print(ls)

i+=1

提取url

我觉得我提取url这里思路比较奇特,首先是分隔,然后是匹配。当然这可能不是很准确,还是用下面这段代码好些:

get_http = re.findall(r'https:\/\/.*?"',imgurl)

for url in get_http:

x = re.sub('"',"",url)

print(x)

import re

# 匹配出163的邮箱地址,且@符号之前有4到20位,例如hello@163.com

def ismail(mail):

if re.match("[\w]{4,20}@163\.com$",mail):

return True

else:

return False

mail = "123123@163.com"

print(ismail(mail))

这里需要注意的东西有什么呢?就是要以com结尾,用$符号来表明是结尾。不然12312@163.com123123也就能通过,因为它确实有那一段能匹配的正则。

正则用得还是不熟悉。头疼头疼!!!

Python之面向对象和正则表达(代数运算和自动更正)

面向对象 一.概念解释 面对对象编程(OOP:object oriented programming):是一种程序设计范型,同时也是一种程序开发的方法,实现OOP的程序希望能够在程序中包含各种独立而又 ...

python 正则表达提取方法 (提取不来的信息print不出来 加个输出type 再print信息即可)

1,正则表达提取 (findall函数提取) import re a= "

你大爷
"x=re.finda ...

python——re模块(正则表达)

python——re模块(正则表达) 两个比较不错的正则帖子: http://blog.csdn.net/riba2534/article/details/54288552 http://blog.c ...

python浅谈正则的常用方法

python浅谈正则的常用方法覆盖范围70%以上 上一次很多朋友写文字屏蔽说到要用正则表达,其实不是我不想用(我正则用得不是很多,看过我之前爬虫的都知道,我直接用BeautifulSoup的网页标签去 ...

正则表达示 for Python3

前情提要 从大量的文字内容中找到自己想要的东西,正则似乎是最好的方法.也是写爬虫不可缺少的技能.所以,别墨迹了赶紧好好学吧! 教程来自http://www.runoob.com/python3/pyt ...

shell正则表达

shell正则表达 .*和.?的比较: 比如说匹配输入串A: 101000000000100 使用 1.*1 将会匹配到1010000000001,匹配方法:先匹配至输入串A的最后, 然后向前匹配,直 ...

python 爬虫之 正则的一些小例子

什么是正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是 事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑. 正则并不是pyth ...

PHP 正则表达示

PHP 正则表达示 php如何使用正则表达式 正则表达式基本元字符 #正则表达式示例 ^:匹配输入字符串开始的位置.如果设置了 RegExp 对象的 Multiline 属性,^ 还会与“\n”或“\ ...

Javascript正则构造函数与正则表达字面量&&常用正则表达式

本文不讨论正则表达式入门,即如何使用正则匹配.讨论的是两种创建正则表达式的优劣和一些细节,最后给出一些常用正则匹配表达式. Javascript中的正则表达式也是对象,我们可以使用两种方法创建正则表达 ...

随机推荐

Java虚拟机浅探

简介 对于java开发人员了来说,对java虚拟机肯定有着或多或少的了解.因为有了虚拟机的存在,才会使得java的内存管理变得那么方便,不再像C++那样使用new/delete来直接管理内存.知名的j ...

带head的gridview

这是github上的一个项目,根据谷歌的那个HeadGridView改的,因为谷歌的那个addHeadView后宽度不能填充屏幕,下面是代码. 来源:https://github.com/liaohu ...

Android数据存储的三种方式:SharePreferences , file , SQLite

(1)SharePreferences: 存入: SharedPreferences setter = this.getSharedPreferences("spfile", 0) ...

QT5-控件-QDateEdit 和 日期类QDate

#ifndef MAINWINDOW_H #define MAINWINDOW_H #include #include #inclu ...

MySQL慢查询日志释疑总结

之前写了一篇"MySQL慢查询日志总结",总结了一些MySQL慢查询日志常用的相关知识,这里总结一下在工作当中遇到关于MySQL慢查询日志的相关细节问题,有些是释疑或自己有疑惑 ...

Linux交换Esc和Caps

使用过 .xmodmap,重启后就失效,添加到rc.local也不管用,后来通过在xorg里配置成功. 更改xorg里的键盘配置,增加Option "XkbOptions" &qu ...

HashMap<Integer, Bean> 根据Bean的属性进行排序

转载地址 已知一个HashMap集合, User有name(String)和age(int)属性.请写一个方法实现对HashMap的排序功能,该方法接收Hash ...

ububtu下安装配置搜狗输入法

安装搜狗输入法 for linux参考教程: http://blog.csdn.net/u013894834/article/details/60357071 安装后会遇到无法切换英文的问题,可以参考 ...

Thinkphp3.2.X自动生成应用目录

从3.2.2版本开始,可以支持自动生成默认模块之外的模块目录以及批量生成控制器和模型类. 例如,如果我们需要生成一个Admin模块用于后台应用,在应用入口文件中定义如下: // 绑定Admin模块到当 ...

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值