Python学习之常用模块

最新推荐文章于 2023-05-09 15:39:49 发布

偷窥者JustDoIT

最新推荐文章于 2023-05-09 15:39:49 发布

阅读量527

点赞数

分类专栏： Python开发文章标签： python3

Python开发专栏收录该内容

12 篇文章 0 订阅

订阅专栏

认识模块

什么是模块

一个模块就是一个包含了Python定义和声明的文件，文件名就是模块名字加上.py 的后缀。

import 加载的模块分为四个通用类别：

1. 使用Python编写的代码（.py文件）

2. 已被编译为共享库或DLL的C或C++的扩展

3. 包好一组模块的包

4. 使用C编写并连接到Python解释器的内置模块

为什么要使用模块？

如果退出python解释器然后重新进入，那么你之前定义的函数或者变量都将丢失，因此我们通常将程序写到文件中以便永久保存下来，需要是就通过python test.py方式去执行，此时test.py被称为脚本。

随着程序的发展，功能越来越多，为了方便管理，我们通常将程序分成一个个的文件，这样做程序的结构更清晰，方便管理。这时我们不仅可以把这些文件当做脚本去执行，还可以把他们当做模块来导入到其他模块中，实现了功能的重复利用。

模块的导入和使用

常用模块一

collections模块

在内置数据类型（dict、tuple、list、set）的基础上，collections模块还提供了几个额外的数据类型：Counter、deque、defaultdict、namedtuple和OrderedDict等。

1. namedtuple:生成可以用名字来访问元素内容的tuple

2. deque:双端队列，可以快速的从另外一侧追加和推出对象。

3. Counter：计数器，主要用于计数

4. OrderedDict:有序字典

5. defaultdict:带有默认值的字典

namedtuple

我们知道tuple可以表示不变集合，例如，一个点的二维坐标就可以表示成：

p = (1,2)

但是，看到（1,2），很难看出这个tuple是用来表示一个坐标的。

这时，namedtuple就派上了用场

from collections import namedtuple
point = namedtuple('point',['x','y'])
p = point(1,2)
print(p.x)
print(p.y)

类似的，如果要用坐标和半径表示一个圆，也可以用namedtuple定义

#namedtuple('名称',[属性list])
Circle = namedtuple('Circle',['x','y','r'])

deque

使用list存储数据时，按索引方向访问元素很快，但是插入和删除元素就很慢了，因为list是线性存储，数据量大的时候，插入和删除效率很低。

deque是为了高效实现插入和删除操作的双相列表，适合于队列和栈：

from collections import deque
q = deque(['a','b','c'])
q.append('x')
q.appendleft('y')
print(q)  #执行结果：deque(['y', 'a', 'b', 'c', 'x'])

deque除了实现list的append()和pop()外还支持appendleft()和popleft(),这样就可以非常高效的往头部添加或删除元素。

OderedDict

使用dict时，Key是无序的，在对dict做迭代时，我们无法确定Key的顺序。

如果要保持Key的顺序，可以用OrderedDict:

from collections import OrderedDict
d = dict([('a',1),('b',2),('c',3)])
print(d) #执行结果：{'a': 1, 'c': 3, 'b': 2}
od = OrderedDict([('a',1),('b',2),('c',3)])
print(od) #执行结果：OrderedDict([('a', 1), ('b', 2), ('c', 3)])

注意,OrderedDict会按照插入的顺序排列，不是key本身排序：

from collections import OrderedDict
odd = OrderedDict()
odd['z'] = 1
odd['y'] = 2
odd['x'] = 3
print(odd.keys())#按照插入key的顺序返回-->odict_keys(['z', 'y', 'x'])

Defaultdict

有如下集合[11,22,33,44,55,66,77,88,99,90...],将所有大于66的值保存至字典的第一个key中，将小于66得知保存至第二个key的值中。

即：{‘k1’:大于66，‘k2’:小于66}

from collections import defaultdict
values = [11,22,33,44,55,66,77,88,99,90]

my_dict = defaultdict(list)

for value in values:
    if value>66:
        my_dict['k1'].append(value)
    else:
        my_dict['k2'].append(value)
print(my_dict) #defaultdict(<class 'list'>, {'k2': [11, 22, 33, 44, 55, 66], 'k1': [77, 88, 99, 90]})

使用dict时，如果key不存在，就会抛出KeyError.如果希望key不存在时，返回一个默认值，就可以用defaultdict

d1 = defaultdict(lambda: 'N/A')
d1['key1'] = 'abc'
print(d1['key1']) #key1存在，返回abc
print(d1['key2']) #key2不存在，返回默认值：N/A

Counter

Counter类的目的是用来追踪值出现的次数。它是一个无序的容器类型，以字典的饿键值对形式存储，其中元素作为key,其计数作为value.计数值可以是任意的Interger(包括0 和负数)。Counter类和其他语言的bags或multisets很相似。

from collections import Counter
c = Counter('ahsdjahsjdhwyeaehjd')
print(c) 
#打印结果：Counter({'h': 4, 'j': 3, 'a': 3, 'd': 3, 'e': 2, 's': 2, 'y': 1, 'w': 1})

时间模块

与时间有关的就要用到时间模块。

常用方法：

1. time.sleep(secs)

(线程)推迟指定的时间运行，单位为秒

2.time.time()

获取当前时间戳

表示时间的三种方式

在python中，通常有这三种方式表示时间：时间戳、元组（struct_time）、格式化的时间字符串：

时间戳（timestamp）:通常来说，时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量。我们运行“type(time.time())”返回的是float类型
格式化的时间字符串（Format String）: ‘1990-11-15’

%y 两位数的年份表示
%Y 四位数的年份表示
%m 月份（01-12）
%d 月内中的一天（0-31）
%H 24小时制小时数（0-23）
%I 12小时制小时数（01-12）
%M 分钟数（00-59）
%S 秒（00-59）
%a 本地简化星期名称
%A 本地完整星期名称
%b 本地简化的月份名称
%B 本地完整的月份名称
%c 本地相应的日期表示和时间表示
%j 年内的一天（011-365）
%p 本地A.M或P.M的等价符
%U 一年中的星期数（00-53）星期天为星期的开始
%w 星期（0-6），星期天为星期的开始
%W 一年中的星期数（00-53）星期一为星期的开始
%x 本地相应的日期表示
%X 本地相应的时间表示
%Z 当前时区的名称
%% %本身

元组（struct_time）:struct_time元组共有9个元素：（年，月，日，时，分，秒，一年中第几周，一年中第几天等）

索引（Index）	属性（Attribute）	值（Values）
0	tm_year(年)	比如2011
1	tm_mon(月)	1-12
2	tm_mday(日)	1-31
3	tm_hour(时)	0-23
4	tm_min(分)	0-59
5	tm_sec(秒)	0-60
6	tm_wday(weekday)	0-6（0表示周一）
7	tm_yday(一年中的第几天）	1-366
8	tm_isdst(是否是夏令时）	默认为0

实例：

import time
#时间戳
# print(time.time()) #执行结果：1530597152.4538252
#
# #时间字符串
# print(time.strftime("%y-%m-%d %X")) #执行结果：18-07-03 13:53:50
# print(time.strftime("%Y-%m-%d %H:%M:%S")) #执行结果：2018-07-03 13:55:12

#时间元组：localtime将一个时间戳转换为当前时区的struct_time

小结：时间戳是计算机能够识别的时间；时间字符串是人能够看懂的时间；元组则是用来操作时间的

几种格式之间的转换

#时间戳-->结构化时间
#time.gmtime(时间戳) #UTC时间，与英国伦敦当地时间一致
#time.localtime(时间戳) #当地时间。例如我们现在正在北京执行这个方法：与UTC时间相差8小时，UTC时间+8小时 = 北京时间
print(time.gmtime(150000000))
#执行结果：time.struct_time(tm_year=1974, tm_mon=10, tm_mday=3, tm_hour=2, tm_min=40, tm_sec=0, tm_wday=3,
 tm_yday=276, tm_isdst=0)
print(time.localtime(150000000))
#执行结果：time.struct_time(tm_year=1974, tm_mon=10, tm_mday=3, tm_hour=10, tm_min=40, tm_sec=0, tm_wday=3, 
tm_yday=276, tm_isdst=0)

#结构化时间-->时间戳
#time.mktime(结构化时间）
time_tuple = time.localtime(150000000)
print(time.mktime(time_tuple))
#执行结果：150000000.0

#结构化时间-->字符串时间
#time.strftime("格式定义","结构化时间") 结构化时间参数若不传，则实现当前时间
print(time.strftime("%Y-%m-%d %X"))  #2018-07-03 14:49:57
print(time.strftime("%Y-%m-%d",time.localtime(1500000000))) #2017-07-14

#字符串时间 -->结构化时间
print(time.strptime("2017-3-16","%Y-%m-%d"))
#执行结果：time.struct_time(tm_year=2017, tm_mon=3, tm_mday=16, tm_hour=0, tm_min=0, tm_sec=0, tm_wday=3, 
tm_yday=75, tm_isdst=-1)
print(time.strptime("07/03/2017","%m/%d/%Y"))
#执行结果：time.struct_time(tm_year=2017, tm_mon=7, tm_mday=3, tm_hour=0, tm_min=0, tm_sec=0, tm_wday=0, 
tm_yday=184, tm_isdst=-1)

#结构化时间 --> %a %b %d %H:%M:%S %Y 串
#time.asctime(结构化时间) 如果不传参数，直接返回当前时间的格式化串
import time
print(time.asctime(time.localtime(1500000000)))
#执行结果：Fri Jul 14 10:40:00 2017
print(time.asctime())
#执行结果：Wed Jul  4 09:21:53 2018

#时间戳 --> %a %b %d %H:%M:%S %Y 串
#time.ctime(时间戳) 如果不传参数，直接返回当前时间的格式化串
print(time.ctime())
#执行结果：Wed Jul  4 09:23:48 2018
print(time.ctime(1500000000))
#执行结果：Fri Jul 14 10:40:00 2017

计算时间差：

import time
true_time = time.mktime(time.strptime('2017-09-20 09:00:03','%Y-%m-%d %H:%M:%S'))
time_now = time.mktime(time.strptime('2018-07-03 15:00:03','%Y-%m-%d %H:%M:%S'))
dif_time = time_now - true_time
struct_time = time.gmtime(dif_time)
print('过去了%d年%d月%d天%d小时%d分钟%d秒'%(struct_time.tm_year-1970,struct_time.tm_mon-1,
    struct_time.tm_mday-1,struct_time.tm_hour,struct_time.tm_min,struct_time.tm_sec))
#打印结果：过去了0年9月13天6小时0分钟0秒

random模块

取随机小数

#大于0且小于1之间的整数
print(random.random()) #0.4391279705536437
#大于1小于3的小数
print(random.uniform(1,3)) #1.8060052925154961

取随机整数

#取大于等于1且小于等于5之间的整数
print(random.randint(1,5)) #3
#取大于等于1且小于10之间的奇数
print(random.randrange(1,10,2)) #5

随机选择一个返回

#1或者23或者[4,5]
print(random.choice([1,'23',[4,5]]))  #[4, 5]

随机选择多个返回，返回的个数为函数的第二个参数

#列表元素任意两个组合
print(random.sample([1,'23',[4,5]],2)) #['23', 1]

打乱列表顺序

item = [1,3,5,7,9]
random.shuffle(item)
print(item) #[7, 3, 9, 5, 1]

练习：生成随机验证码

import random
def v_code():

    code = ''
    for i in range(5):
        num = random.randint(0,9)
        alf = chr(random.randint(65,90))
        add = random.choice([num,alf])
        code = "".join([code,str(add)])
    return code
print(v_code())

os模块

OS模块是与操作系统交互的一个接口

import os
'''
os.getcwd() 获取当前工作目录，即当前脚本工作的目录路径
os.chdir("dirname") 改变当前脚本工作目录；相当于shell下的cd
os.curdir 返回当前目录：（'.'）
os.pardir 获取当前目录的父目录字符串名：（'..'）
os.makedirs('dirname1/dirname2') 可生成多层递归目录
os.removedirs('dirname1') 若目录为空，则删除，并递归到上一级目录，如若也为空，则删除，以此类推
os.mkdir('dirname') 生成单级目录；
os.rmdir('dirname') 删除单级空目录，若目录不为空则无法删除，报错
os.listdir('dirname') 列出指定目录下的所有文件和子目录，包括隐藏文件，并以列表方式打印
os.remove() 删除一个文件
os.rename("oldname","newname") 重命名文件/目录
os.stat("path/filename") 获取文件/目录信息
os.sep  输出操作系统特定的路径分隔符，windows下为"\\"，Linux下为"/"
os.linesep 输出当前平台使用的行终止符，windows下为"\t\n",Linux下为"\n"
os.pathsep 输出用于分割文件路径的字符串 windows下为；Linux下为：
os.name 输出字符串指示当前使用平台。win->nt  Linux -> posix
os.system("bash command") 运行shell命令，直接显示
os.popen("bash command").read()  运行shell命令，获取执行结果
os.environ 获取系统环境变量

os.path 
os.path.abspath(path) 返回path规范化的绝对路径 os.path.split(path) 将path分割成目录和文件名二元组返回
os.path.dirname(path) 返回path的目录，其实就是os.path.split(path)的第一个元素 os.path.basename(path)返回path最后的文件名。
如果path以/或\结尾，那么就会返回空值。即os.path.split(path)的第二个元素
os.path.exists(path) 如果path 存在则返回true，如果path不存在，返回False
os.path.isabs(path) 如果path是绝对路径，则返回True
os.path.isfile(path) 如果path是一个存在的文件，返回True,否则返回False
os.path.isdir(path) 如果path是一个存在的目录，则返回True,否则返回False
os.path.join(path1[,path2[,...]]) 将多个路径组合后返回，第一个绝对路径之前的参数将被忽略
os.path.getatime(filename) 返回path所指向的文件或者目录的最后访问时间
os.path.getmtime(filename) 返回path所指向的文件或目录的最后修改时间
os.path.getsize(path) 返回path的大小
'''

注意：os.stat('path/filename')获取文件/目录信息的结构说明

stat 结构：

st_mode: inode 保护模式
st_ino: inode 节点号
st_dev: inode 驻留的设备
st_nlink: inode 的链接数
st_uid: 所有者的用户ID
st_gid: 所有者的组ID
st_size: 普通文件以字节为单位的大小；包含等待某些特殊文件的数据
st_atime: 上次访问的时间
st_mtime: 最后一次修改的时间
st_ctime: 由操作系统报告的"ctime".在某些系统上（如Unix)是最新的元数据更改的时间，在其他系统上（如Windows)是创建时间

sys模块

sys模块是与python解释器交互的一个接口

'''
sys.argv  命令行参数List,第一个元素是程序本身路径
sys.exit(n) 退出程序，正常退出时exit(0),错误退出sys.exit(1)
sys.version 获取python解释程序的版本信息
sys.path 返回模块的搜索路径，初始化时使用PYTHONPATH环境变量的值
sys.platform 返回操作系统的平台名称
''‘

异常处理和status

import sys
try:
    sys.exit(1)
except SystemExit as e:
    print(e)

序列化模块

什么是序列化--将原本的字典、列表等内容转换成字符串的过程就叫序列化

为什么要有序列化：

比如，我们在Python代码中计算一个数据需要给另外一段程序使用，那我们怎么给？
现在我们能想到的方法就是存在文件里，然后另一个Python程序再从文件里读出来。
但是我们知道，对于文件来说是没有字典这个概念的，所以我们只能将数据转换成字典放到文件中。
你一定会问，将字典转换成字符串很简单，就是str(dic)就可以办到了，为什么我们还要学习序列化模块呢？
没错，序列化模块的过程就是从dic变为str(dic)的过程，现在你可以通过str(dic)，将一个名为dic的字典转换成一个字符串，但是你要怎么把一个字符串转换成字典呢？
聪明的你肯定想到了eval(),如果我们将字符串类型的字典str_dic传给eval,就会得到一个返回的字典类型了
eval()函数十分强大，但是eval是做什么的？eval官方demo解释为：将字符串str当成有效的表达式来求值并返回计算结果。
BUT!强大的函数有代价。安全性是其最大的缺点
想象一下，如果我们从文件中读出的不是一个数据结构，而是一句“删除文件”类似的破坏性语句，那么后果实在不堪设想。而使用eval就要担这个风险。所以我们并不推荐使用eval方法来进行反序列化操作（将str转换成python中的数据结构）

序列化的目的

以某种存储形式使自定义对象持久化；
将对象从一个地方传递到另一个地方
使程序更具维护性

json 数据解析

json模块提供了四个功能：dumps、dump、loads、load

json.dumps() --将Python对象编码成JSON字符串

语法：

json.dumps(obj, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, encoding="utf-8", default=None, sort_keys=False, **kw)

json.loads() --将已编码的JSON字符串解码为Python对象

语法：

json.loads(s, encoding=None, cls=None, object_hook=None, parse_float=None, 
parse_int=None, parse_constant=None, object_pairs_hook=None, **kw)

Python 编码为 JSON 类型转换对应表：

Python	JSON
dict	object
list, tuple	array
str	string
int, float, int- & float-derived Enums	number
True	true
False	false
None	null

JSON 解码为 Python 类型转换对应表：

JSON	Python
object	dict
array	list
string	str
number (int)	int
number (real)	float
true	True
false	False
null	None

实例

loads和dumps实例

import json
dic = {'k1':'v1','k2':'v2','k3':'v3'}
str_dic = json.dumps(dic) #序列化，将一个字典转换成一个字符串
print(type(str_dic),str_dic) #<class 'str'> {"k1": "v1", "k2": "v2", "k3": "v3"}
#注意：json转换完的字符串类型的字典中的字符串是由""表示的

dic = json.loads(str_dic) #反序列化，将一个字符串格式的字典转换成一个字典
#注意，要使用json的loads功能处理的字符串类型的字典中的字符串必须由""表示
print(type(dic),dic) #<class 'dict'> {'k1': 'v1', 'k2': 'v2', 'k3': 'v3'}

如果你要处理的是文件而不是字符串，可以使用json.dump()和json.load()来编码和解码JSON数据。

f = open('jsonfile','w')
dic = {'k1':'v1','k2':'v2','k3':'v3'}
json.dump(dic,f) #dump方法接收一个文件句柄，直接将字典转换成json字符串写入文件
f.close()
新建jsonfile名称的文件，写入：dic = {'k1':'v1','k2':'v2','k3':'v3'}

f = open('jsonfile')
dic2 = json.load(f) #load方法接收一个文件句柄，直接将文件中的json字符串转换成数据结构返回
f.close()
print(type(dic2),dic2)
# 执行结果：<class 'dict'> {'k1': 'v1', 'k2': 'v2', 'k3': 'v3'}

ensure_ascii 关键字参数

由于在使用pyhton.dumps序列化时，对中文默认使用ascii编码,例如：

import json
print(json.dumps('中国'))
#打印结果："\u4e2d\u56fd"

所以如果想输出真正的中文字符，需要指定ensure_ascii=False：

print(json.dumps('英国',ensure_ascii=False)) #打印结果："英国"

其他参数说明

skipkeys：默认值是False,如果dict和keys内的数据不是Python的基本类型（str、Unicode、int、long、float、bool、None),设置为False时，会报TypeError的错误。此时设置成True,则会跳过这类key

ensure_ascii: 当它为True的时候，所有非ascii码字符显示为\uXXXX序列，只需在dump时将ensure_ascii设置成False即可，此时存入json的中文即可正常显示

indent： 应该是一个非负的整型，如果是0就顶格分行显示，如果为空就是一行最紧凑显示，否则会换行且按照indent的数值显示前面的空白分行显示，这样打印出来的json数据也叫pretty-printed json

seperators: 分隔符，实际上是（item_seperator,dict_seperator)的一个元组，默认的就是(',' , ':');这表示dictionary内keys之间用“,”隔开，而key和value之间用":"隔开。

sort_keys:将数据根据Keys的值进行排序。

json的格式化输出

data = {'username':['李华','二愣子'],'sex':'male','age':16}
json_dic2 = json.dumps(data,sort_keys=True,indent = 4, separators = (',',':'),ensure_ascii= False)
print(json_dic2)

'''
执行结果：
{
  "age":16,
  "sex":"male",
  "username":[
    "李华",
    "二愣子"
  ]
}
'''

pickle

pickle 和json 都有dumps,dump,loads,load四种方法，而且用法一样。

不同的是json序列化出来的是通用格式，其他编程语言都认识，就是普通的字符串，

而pickle模块序列化出来的只有python可以识别，其他编程语言不认识，表现为乱码

不过pickle可以序列化函数，可以把python中任意的数据类型序列化。

import pickle
dic = {'k1':'v1','k2':'v2','k3':'v3'}
str_dic = pickle.dumps(dic)
print(str_dic)

#执行结果：一串二进制字符
'''b'\x80\x03}q\x00(X\x02\x00\x00\x00k1q\x01X\x02\
x00\x00\x00v1q\x02X\x02\x00\x00\x00k2q\x03X\x02\
x00\x00\x00v2q\x04X\x02\x00\x00\x00k3q\x05X\x02\
x00\x00\x00v3q\x06u.'''''

dic2 = pickle.loads(str_dic)
print(dic2)
# 输出：{'k1': 'v1', 'k2': 'v2', 'k3': 'v3'}

import time
struct_time = time.localtime(1000000000)
print(struct_time)
f = open('pickle_file','wb')
pickle.dump(struct_time,f)
f.close()

f = open('pickle_file','rb')
struct_time2 = pickle.load(f)
print(struct_time2.tm_year)


#输出：
'''time.struct_time(tm_year=2001, tm_mon=9, tm_mday=9, tm_hour=9, tm_min=46, tm_sec=40, tm_wday=6, tm_yday=252, tm_isdst=0)
2001'''

shelve

shelve 也是python提供给我们的序列化工具，比pickle用起来更简单一些。

shelve只提供给我们一个open方法，是用key来访问的，使用起来和字典类似

import shelve
f = shelve.open('shelve_file')
f['key'] = {'int':10,'float':9.5,'string':'sample data'} #直接对文件句柄进行操作，就可以存入数据
f.close()


f1 = shelve.open('shelve_file')
existing = f1['key'] #取出数据的时候也只需要直接用key获取即可，但是如果key不存在会报错
f1.close()
print(existing)

#{'int': 10, 'float': 9.5, 'string': 'sample data'}

这个模块有个限制，它不支持多个应用同一时间往同一个DB里进行写操作。所以当我们知道我们的应用如果只进行读操作，我们可以让shelve通过只读方式打开DB

import shelve
f2 = shelve.open('shelve_file', flag= 'r')
existing = f2['key']
f2.close()
print(existing)
#{'int': 10, 'float': 9.5, 'string': 'sample data'}

由于shelve在默认情况下是不会记录待持久化对象的任何修改的，所以我们在shelve.open()时候需要修改默认参数，否则对象的修改不会保存。

import shelve
f1 = shelve.open('shelve_file')
print(f1['key'])
f1['key']['new_value'] = 'this was not here before'
f1.close()

f2 = shelve.open('shelve_file', writeback= True)
print(f2['key'])
f2['key']['new_value'] = 'this was not here before'
f2.close()

#打印结果：
{'int': 10, 'float': 9.5, 'string': 'sample data'}
{'int': 10, 'float': 9.5, 'string': 'sample data'}

writeback方式有优点也有缺点，优点是减少了我们出错的概率，并且让对象的持久化对用户更加的透明了；但这种方式并不是所有的情况下都需要，首先，使用writeback以后，shelve在open()的时候会增加额外的内存消耗，并且当DB在close的时候会将缓存中的每一个对象都写入DB，这也会带来额外的等待时间。因为shelve没有办法知道缓存中哪些对象修改了，哪些对象没有修改，因此所有的对象都会被写入。

re模块和正则表达式

学习这个之前先举个例子：注册页面让用户输入手机号，那么如何判断手机号是合法的呢？

两种方法：

while True:
    phone_number = input('please enter your phone number:')
    if len(phone_number) == 11\
          and phone_number.isdigit()\
          and (phone_number.startswith('13') \
          or phone_number.startswith('14') \
          or phone_number.startswith('15') \
          or phone_number.startswith('16')):
       print('注册成功') 
    else:
        print('请输入正确的手机号')

import re
phone_number = input('please input your phone number:')
if re.match('^(13|14|15|18)[0-9]{9}$',phone_number):
    print('注册成功')
else:
    print('请输入正确的手机号')

正则表达式本身和python没什么关系，就是匹配字符串内容的一种规则。

官方定义：正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表来对字符串的一种过滤逻辑。

正则表达式

在线测试工具：http://tool.chinaz.com/regex/

谈到正则，就只和字符串相关了。

所以需要考虑的是在同一个位置上可以出现的字符的范围。

字符组

此处需要注意的是，一个字符组只代表一个字符。例如[0-9]只代表0-9这几个数中的一个数。

在同一个位置可能出现的各种字符组成了一个字符组，在正则表达式中用[]表示

字符分为很多类，比如数字、字母、标点等等。

例如你现在要求一个位置“只能出现一个数字",那么这个位置上的字符只能是0-9这10个数之一。

正则	待匹配字符	匹配结果	说明
[0123456789]	8	True	在一个字符组里枚举合法的所有字符，字符组里的任意一个字符和”待匹配字符“相同都
[0123456789]	a	False	由于字符组中没有”a"字符，所以不能匹配
[0-9]	7	True	也可以用-表示范围，[0-9]就和
[a-z]	s	True	同样要匹配所有的小写字母，直接用[a-z]就可以表示
[A-Z]	B	True	[A-Z]就表示所有的大写字母
[0-9a-fA-F]	e	True	可以匹配数字、大小写形式的a-f,用来验证十六进制字符

元字符	匹配内容
.	匹配除换行符以外的任意字符
\w	匹配字母或数字或下划线
\s	匹配任意的空白符
\d	匹配数字
\n	匹配一个换行符
\t	匹配一个制表符
\b	匹配一个单词的结尾
^	匹配字符串的开始
$	匹配字符串的结尾
\W	匹配非字母或数字或下划线
\D	匹配非数字
\S	匹配非空白符
a\|b	匹配字符a 或字符b
()	匹配括号内的表达式，也表示一个组
[...]	匹配字符组中的字符

[^...]

匹配除了字符组中字符的所有字符

量词：

量词只能约束相邻前面的字符组出现的次数

贪婪匹配：正则表达式中的所有量词，都会尽量多的匹配，例如+表示匹配一次或多次，

量词	用法说明
*	重复0次或更多次，如果待匹配的字符为空，也会显示匹配到一条结果
+	重复一次或更多次
？	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

. ^ $

正则	待匹配字符	匹配结果	说明
海	海燕海娇海东	海燕海娇海东	匹配所有“海.”的字符
^海	海燕海娇海东	海燕	只从开头匹配“海.”
海.$	海燕海娇海东	海东	只匹配结尾的“海.$"

* + ? { }

正则	待匹配字符	匹配结果	说明
李.?	李杰和李莲英和李二棍子	李杰李莲李二	？表示重复零次或一次，即只匹配”李“后面一个任意字符
李.*	李杰和李莲英和李二棍子	李杰和李莲英和李二棍子	*表示重复零次或多次，即匹配”李“后面零个或多个任意字符
李.{1,2}	李杰和李莲英和李二棍子	李杰和李莲英和李二棍子	+表示重复一次或多次，即只匹配”李“后面一个或多个任意字符
李.{1,2}	李杰和李莲英和李二棍子	李杰和李莲英李二棍	{1，2}匹配1到2次任意字符

注意：前面的*，+，？等都是贪婪匹配，也就是尽可能匹配，后面加？号使其变成惰性匹配。？号写在字符组后面表示匹配零次或多次，？号写在两次后面，会尽量少匹配，例如\d{3,5}?,表示最多匹配3次。

正则

待匹配字符

匹配结果

说明

李.*?

李杰和李莲英和李二棍子

李

惰性匹配

字符集［］［^］

正则	待匹配字符	匹配结果	说明
李[杰莲英二棍子]*	李杰和李莲英和李二棍子	李杰李莲英李二棍子	表示匹配"李"字后面[杰莲英二棍子]的字符任意次
李[^和]*	李杰和李莲英和李二棍子	李杰李莲英李二棍子	表示匹配一个不是"和"的字符任意次
[\d]	456bdha3	4 5 6 3	表示匹配任意一个数字，匹配到4个结果
[\d]+	456bdha3	456 3	表示匹配任意个数字，匹配到2个结果

分组 ()与或｜［^］

身份证号码是一个长度为15或18个字符的字符串，如果是15位则全部是由数字组成，首位不能是0；如果是18位，则前17位全部是数字，末位可能是数字或x，下面我们尝试用正则来表示。

正则	待匹配字符	匹配结果	说明
^[1-9]\d{13,16}{0-9x}$	110101198001017032	110101198001017032	表示可以匹配一个正确的身份证号
^[1-9]\d{13,16}[0-9x]$	1101011980010170	1101011980010170	表示也可以匹配这串数字，但这并不是一个正确的身份证号码，它是一个16位的数字
^[1-9]\d{14}(\d{2}[0-9x])?$	1101011980010170	False	现在不会匹配错误的身份证号了 ()表示分组，将\d{2}[0-9x]分成一组，就可以整体约束他们出现的次数为0-1次
^([1-9]\d{16}[0-9x]\|[1-9]\d{14})$	110105199812067023	110105199812067023	表示先匹配[1-9]\d{16}[0-9x]如果没有匹配上就匹配[1-9]\d{14}

转义符 \

在对正则表达式中，有很多有特殊意义的是元字符，比如\d和\s等，如果要在正则中匹配正常的“\d"而不是“数字”就需要对“\”进行转义，变成‘\\’。

在python 中，无论是正则表达式，还是待匹配的内容，都是以字符串的形式出现的，在字符串中\也有特殊的含义，本身还需要转义。所以如果匹配一次“\d”，字符串中要写成“\\d”，那么正则里就要写成“\\\\d”，这样就太麻烦了。这个时候就用到了r'\d'这个概念，此时的正则是r'\\d'就可以了。

正则	待匹配字符	匹配结果	说明
\d	\d	False	因为在正则表达式中\是有特殊意义的字符，所以要匹配\d本身，用表达式\d无法匹配
\\d	\d	True	转义\之后变成\\,即可匹配
“\\\\d"	’\d‘	True	如果在python中，字符串中的’\’也需要转义，所以每一个字符串‘\'又需要转义一次
r'\\d'	r'\d'	True	在字符串之前加r，让整个字符串不转义

贪婪匹配

贪婪匹配：在满足匹配时，匹配尽可能长的字符串，默认情况下，采用贪婪匹配。

正则

待匹配字符

匹配结果

说明

<.*>

默认为贪婪匹配模式，会匹配尽量长的字符串

<.*?>

r'\d'

加上?为将贪婪匹配模式转为非贪婪匹配模式，会匹配尽量短的字符串

几个常用的非贪婪匹配Pattern

*？重复任意次，但尽可能少重复

+？重复1次或更多次，但尽可能少重复

？？重复0次或1次，但尽可能少重复

{n,m}? 重复n到m次，但尽可能少重复

{n,}? 重复n此以上，但尽可能少重复

.*?的用法

. 是任意字符

* 是取0至无限长度

? 是非贪婪模式

合在一起就是取尽量少的任意字符，一般不会这么单独写，他大多用在：

.*?x

就是取前面任意长度的字符，直到一个x出现

re模块下的常用方法

re.findall()

返回所有满足条件的结果，放在列表里。

ret = re.findall('a','sahdjakja')
print(ret)
# 输出：['a', 'a', 'a']

re.search().group()

函数会在字符串内查找模式匹配，只找到第一个匹配然后返回一个包含匹配信息的对象，该对象可以通过调用group()方法得到匹配的字符串，如果字符串没有匹配，则返回None

ret = re.search('a','dhajdhsladlk').group()
print(ret)
# 输出：a

re.match().group()

同search,不过尽在字符串开始处进行匹配

ret = re.match('a','shdjahsdashdl').group()
print(ret)
# 如待匹配字符串开始处没有'a'，报错

re.split(’表达式‘，’待匹配字符串‘)

ret = re.split('[ab]','abcd')
print(ret)
# 输出： ['', '', 'cd']
# 先按'a'分割得到''和'bcd',再对''和'bcd'分别按'b'分割

re.sub()

ret = re.sub('\d','_Replace_','shdja3123sda344',2)
print(ret)
#输出：shdja_Replace__Replace_23sda344
#将待匹配字符串中的数字替换为'_replace_',最后的那个'2'表示只替换两个

re.subn()

ret = re.subn('\d','_replace_','shdja3123sda344')
print(ret)
# 输出：('shdja_replace__replace__replace__replace_sda_replace__replace__replace_', 7)
# 将数字替换成'_replace_',返回元组（替换的结果，替换了多少次）

re.compile()

obj = re.compile('\d{3}')
#将正则表达式编译成为一个正则表达式对象，规则要匹配的是三个数字
ret = obj.search('abc123hdjeh')
#正则表达式对象调用search,参数为待匹配的字符串
print(ret.group())
#输出：123

re.finditer()

ret = re.finditer('\d','ds3sy3432sa')
# finditer返回一个存放匹配结果的迭代器
print(ret)
# <callable_iterator object at 0x10085c2b0>
print(next(ret).group())
# 查看第一个结果
print(next(ret).group())
# 查看第二个结果
print([i.group() for i in ret])
#查看剩余的左右结果

注意：

1. re.findall()的优先级查询：

ret = re.findall('www.(baidu|oldboy).com','www.oldboy.com')
print(ret)
# 输出：['oldboy']
# 这是因为findall会优先把匹配结果组里内容返回，如果想要匹配结果，使用"？："取消权限即可

ret = re.findall('www.(?:baidu|oldboy).com','www.oldboy.com')
print(ret)
# 输出：['www.oldboy.com']

2. split 优先级查询

在匹配部分加上（）之后所切出的结果是不同的，

没有（）的没有保留所匹配的项，但是有（）的却能够保留了匹配的项

这个在某些需要保留匹配部分的使用过程是非常重要的

ret = re.split("\d+","eva3egon4yuan")
print(ret)
# 输出：['eva', 'egon', 'yuan']

ret = re.split("(\d+)","eva3egon4yuan")
print(ret)
# 输出：['eva', '3', 'egon', '4', 'yuan']