Python正则表达式
Python的正则表达式re,正则表达式可以定义为用于在字符串中搜索模式的字符序列。在python程序中re模块支持使用正则表达式。如果在使用正则表达式时出现错误,则re模块会抛出异常。
正则表达式可以定义为用于在字符串中搜索模式的字符序列。模块重新提供了在python程序中使用正则表达式的支持。如果在使用正则表达式时出现错误,则re模块会抛出异常。
该模块必须导入到使用正则表达式功能的python。
import re
正则表达式函数
python中使用了以下正则表达式函数。
SN | 功能 | 描述 |
1 | match | 此方法将字符串中的正则表达式模式与可选标志匹配。如果在字符串中找到匹配则返回true,否则返回false。 |
2 | search | 如果在字符串中找到匹配项,则此方法返回匹配对象。 |
3 | findall | 它返回一个列表,其中包含字符串中模式的所有匹配项。 |
4 | split | 返回在每个匹配中已拆分字符串的列表。 |
5 | sub | 替换字符串中的一个或多个匹配项。 |
创建正则表达式
可以通过使用元字符,特殊序列和集合的混合来形成正则表达式。
元字符
元字符是具有指定含义的字符。
元字符 | 描述 | 示例 |
[] | 它代表一组字符。 | “[AZ]” |
\ | 它代表了特殊的序列。 | “\ r” |
。 | 它表示任何角色出现在某个特定的地方。 | “Ja.v.” |
^ | 它表示字符串开头的模式。 | “^的Java” |
$ | 它表示字符串末尾的模式。 | “点” |
* | 它表示字符串中出现零个或多个模式。 | “你好*” |
+ | 它表示字符串中一个或多个模式的出现。 | “你好+” |
{} | 字符串的指定出现次数。 | “Java的2” |
| | 它代表这个或那个角色存在。 | “Java的|点” |
() | 捕获和分组 |
特殊序列
特殊序列是包含\后跟其中一个字符的序列。
字符 描述 | |
\一个 | 如果指定的字符出现在字符串的开头,则返回匹配项。 |
\ b | 如果指定的字符出现在字符串的开头或结尾,则返回匹配项。 |
\乙 | 如果指定的字符出现在字符串的开头但不在结尾处,则返回匹配项。 |
\ d | 如果字符串包含数字[0-9],则返回匹配项。 |
\ d | 如果字符串不包含数字[0-9],则返回匹配项。 |
\ S | 如果字符串包含任何空格字符,则返回匹配项。 |
\ S | 如果字符串不包含任何空格字符,则返回匹配项。 |
\ W | 如果字符串包含任何单词字符,则返回匹配项。 |
\ W | 如果字符串不包含任何单词,则返回匹配项。 |
\ž | 如果指定的字符位于字符串的末尾,则返回匹配项。 |
集
集合是在一对方括号内给出的一组字符。它代表了特殊的意义。
SN | 组 | 描述 |
1 | [ARN] | 如果字符串包含集合中的任何指定字符,则返回匹配项。 |
2 | [一个] | 如果字符串包含a到n之间的任何字符,则返回匹配项。 |
3 | [^ ARN] | 如果字符串包含除a,r和n之外的字符,则返回匹配项。 |
4 | [0123] | 如果字符串包含任何指定的数字,则返回匹配项。 |
5 | [0-9] | 如果字符串包含0到9之间的任何数字,则返回匹配项。 |
6 | [0-5] [0-9] | 如果字符串包含介于00和59之间的任何数字,则返回匹配项。 |
7 | [A-ZA-Z] | 如果字符串包含任何字母(小写或大写),则返回匹配项。 |
findall()函数
此方法返回一个列表,其中包含字符串中模式的所有匹配项的列表。它按照找到的顺序返回模式。如果没有匹配项,则返回空列表。
请考虑以下示例。
例
import re
str = "How are you. How is everything"
matches = re.findall("How", str)
print(matches)
print(matches)
输出:
['How', 'How']
匹配对象
匹配对象包含有关搜索和输出的信息。如果找不到匹配项,则返回None对象。
例
import re
str = "How are you. How is everything"
matches = re.search("How", str)
print(type(matches))
print(matches) #matches is the search object
输出:
<_sre.sre_match span="(0,3),match">
Match对象方法
有与Match对象关联的以下方法。
span()
:返回包含匹配起始位置和结束位置的元组。
string()
:返回传递给函数的字符串。
group()
:返回匹配项的字符串部分。
例
import re
str = "How are you. How is everything"
matches = re.search("How", str)
print(matches.span())
print(matches.group())
print(matches.string)
输出:
(0, 3)
How
How are you. How is everything
Python元类
简介
控制类的创建行为,还可以使用metaclass。当我们定义了类以后,就可以根据这个类创建出实例,所以:先定义类,然后创建实例。
metaclass
除了使用type()动态创建类以外,要控制类的创建行为,还可以使用metaclass。
metaclass,直译为元类,简单的解释就是:
当我们定义了类以后,就可以根据这个类创建出实例,所以:先定义类,然后创建实例。
但是如果我们想创建出类呢?那就必须根据metaclass创建出类,所以:先定义metaclass,然后创建类。
连接起来就是:先定义metaclass,就可以创建类,最后创建实例。
所以,metaclass允许你创建类或者修改类。换句话说,你可以把类看成是metaclass创建出来的“实例”。
metaclass是Python面向对象里最难理解,也是最难使用的魔术代码。正常情况下,你不会碰到需要使用metaclass的情况,所以,以下内容看不懂也没关系,因为基本上你不会用到。
我们先看一个简单的例子,这个metaclass可以给我们自定义的MyList增加一个add方法:
定义ListMetaclass,按照默认习惯,metaclass的类名总是以Metaclass结尾,以便清楚地表示这是一个metaclass:
# metaclass是创建类,所以必须从`type`类型派生:
class ListMetaclass(type):
def __new__(cls, name, bases, attrs):
attrs['add'] = lambda self, value: self.append(value)
return type.__new__(cls, name, bases, attrs)
class MyList(list):
__metaclass__ = ListMetaclass # 指示使用ListMetaclass来定制类
当我们写下metaclass = ListMetaclass语句时,魔术就生效了,它指示Python解释器在创建MyList时,要通过ListMetaclass.new()来创建,在此,我们可以修改类的定义,比如,加上新的方法,然后,返回修改后的定义。
new()方法接收到的参数依次是:
当前准备创建的类的对象;
类的名字;
类继承的父类集合;
类的方法集合。
测试一下MyList是否可以调用add()方法:
>>> L = MyList()
>>> L.add(1)
>>> L
[1]
而普通的list没有add()方法:
>>> l = list()
>>> l.add(1)
Traceback (most recent call last):
File "", line 1, in
AttributeError: 'list' object has no attribute 'add'
动态修改有什么意义?直接在MyList
定义中写上add()方法不是更简单吗?正常情况下,确实应该直接写,通过metaclass
修改纯属变态。
但是,总会遇到需要通过metaclass修改类定义的。ORM就是一个典型的例子。
ORM全称“Object Relational Mapping
”,即对象-关系映射,就是把关系数据库的一行映射为一个对象,也就是一个类对应一个表,这样,写代码更简单,不用直接操作SQL语句。
要编写一个ORM框架,所有的类都只能动态定义,因为只有使用者才能根据表的结构定义出对应的类来。
让我们来尝试编写一个ORM框架。
编写底层模块的第一步,就是先把调用接口写出来。比如,使用者如果使用这个ORM框架,想定义一个User类来操作对应的数据库表User,我们期待他写出这样的代码:
class User(Model):
# 定义类的属性到列的映射:
id = IntegerField('id')
name = StringField('username')
email = StringField('email')
password = StringField('password')
# 创建一个实例:
u = User(id=12345, name='Michael', email='test@orm.org', password='my-pwd')
# 保存到数据库:
u.save()
其中,父类Model和属性类型StringField、IntegerField是由ORM框架提供的,剩下的魔术方法比如save()
全部由metaclass自动完成。虽然metaclass
的编写会比较复杂,但ORM的使用者用起来却异常简单。
现在,我们就按上面的接口来实现该ORM。
首先来定义Field类,它负责保存数据库表的字段名和字段类型:
class Field(object):
def __init__(self, name, column_type):
self.name = name
self.column_type = column_type
def __str__(self):
return '' % (self.__class__.__name__, self.name)
在Field的基础上,进一步定义各种类型的Field,比如StringField
,IntegerField
等等:
class StringField(Field):
def __init__(self, name):
super(StringField, self).__init__(name, 'varchar(100)')
class IntegerField(Field):
def __init__(self, name):
super(IntegerField, self).__init__(name, 'bigint')
下一步,就是编写最复杂的ModelMetaclass了:
class ModelMetaclass(type):
def __new__(cls, name, bases, attrs):
if name=='Model':
return type.__new__(cls, name, bases, attrs)
mappings = dict()
for k, v in attrs.iteritems():
if isinstance(v, Field):
print('Found mapping: %s==>%s' % (k, v))
mappings[k] = v
for k in mappings.iterkeys():
attrs.pop(k)
attrs['__table__'] = name # 假设表名和类名一致
attrs['__mappings__'] = mappings # 保存属性和列的映射关系
return type.__new__(cls, name, bases, attrs)
以及基类Model:
class Model(dict):
__metaclass__ = ModelMetaclass
def __init__(self, **kw):
super(Model, self).__init__(**kw)
def __getattr__(self, key):
try:
return self[key]
except KeyError:
raise AttributeError(r"'Model' object has no attribute '%s'" % key)
def __setattr__(self, key, value):
self[key] = value
def save(self):
fields = []
params = []
args = []
for k, v in self.__mappings__.iteritems():
fields.append(v.name)
params.append('?')
args.append(getattr(self, k, None))
sql = 'insert into %s (%s) values (%s)' % (self.__table__, ','.join(fields), ','.join(params))
print('SQL: %s' % sql)
print('ARGS: %s' % str(args))
当用户定义一个class User(Model)
时,Python解释器首先在当前类User的定义中查找metaclass,如果没有找到,就继续在父类Model中查找metaclass,找到了,就使用Model中定义的metaclass的ModelMetaclass
来创建User类,也就是说,metaclass可以隐式地继承到子类,但子类自己却感觉不到。
在ModelMetaclass中,一共做了几件事情:
排除掉对Model类的修改;
在当前类(比如User)中查找定义的类的所有属性,如果找到一个Field属性,就把它保存到一个mappings的dict中,同时从类属性中删除该Field属性,否则,容易造成运行时错误;
把表名保存到table中,这里简化为表名默认为类名。
在Model类中,就可以定义各种操作数据库的方法,比如save()
,delete()
,find()
,update
等等。
我们实现了save()方法,把一个实例保存到数据库中。因为有表名,属性到字段的映射和属性值的集合,就可以构造出INSERT语句。
编写代码试试:
u = User(id=12345, name='Michael', email='test@orm.org', password='my-pwd')
u.save()
输出如下:
Found model: User
Found mapping: email ==>
Found mapping: password ==>
Found mapping: id ==>
Found mapping: name ==>
SQL: insert into User (password,email,username,uid) values (?,?,?,?)
ARGS: ['my-pwd', 'test@orm.org', 'Michael', 12345]
可以看到,save()方法已经打印出了可执行的SQL语句,以及参数列表,只需要真正连接到数据库,执行该SQL语句,就可以完成真正的功能。
不到100行代码,我们就通过metaclass
实现了一个精简的ORM框架
最后解释一下类属性和实例属性。直接在class中定义的是类属性:
class Student(object):
name = 'Student'
实例属性必须通过实例来绑定,比如self.name = 'xxx'
。来测试一下:
>>> # 创建实例s:
>>> s = Student()
>>> # 打印name属性,因为实例并没有name属性,所以会继续查找class的name属性:
>>> print(s.name)
Student
>>> # 这和调用Student.name是一样的:
>>> print(Student.name)
Student
>>> # 给实例绑定name属性:
>>> s.name = 'Michael'
>>> # 由于实例属性优先级比类属性高,因此,它会屏蔽掉类的name属性:
>>> print(s.name)
Michael
>>> # 但是类属性并未消失,用Student.name仍然可以访问:
>>> print(Student.name)
Student
>>> # 如果删除实例的name属性:
>>> del s.name
>>> # 再次调用s.name,由于实例的name属性没有找到,类的name属性就显示出来了:
>>> print(s.name)
Student
因此,在编写程序的时候,千万不要把实例属性和类属性使用相同的名字。
在我们编写的ORM中,ModelMetaclass
会删除掉User类的所有类属性,目的就是避免造成混淆。
END
时光,在物转星移中渐行渐远,春花一梦,流水无痕,没有在最想做的时候去做的事情,都是人生的遗憾。人生需要深思熟虑,也需要一时的冲动。