Python基础05|文件,模块,类与对象,正则表达式

本文详细介绍了Python中文件操作的基础,包括使用open()函数创建file对象,读写文件的模式,以及如何处理Excel和CSV文件。接着,我们探讨了os模块,用于文件和目录的处理,以及datetime模块,用于日期和时间的管理。文章还深入讲解了类和对象的概念,以及面向对象编程的关键特性。在正则表达式部分,解释了正则表达式的基本用法和Python中的re模块。最后,简述了HTTP请求的工作流程。
摘要由CSDN通过智能技术生成

file文件

文件应该都不陌生,比如办公软件word、excel、txt等文件,很多人几乎是天天会接触到各种各样的文件。Python内置了读写文件的函数,用法和C是兼容的。需要注意的是,在磁盘上读写文件的功能都是由操作系统提供的,现代操作系统不允许普通的程序直接操作磁盘,所以,读写文件就是请求操作系统打开一个文件对象,然后,通过操作系统提供的接口从这个文件对象中读取数据(读文件),或者把数据写入这个文件对象(写文件)。

  • 文件对象的操作方法
    file 对象使用 open 函数来创建, file 对象常用的函数有close()、next()、tell()等等。

  • 读文件
    要以读文件的模式打开一个文件对象,使用Python内置的open()函数。open() 函数常用形式是接收两个参数:文件名(file)和模式(mode)。比如open(file, mode=‘r’)。当然,如果文件不存在,open()函数就会抛出一个IOError的错误,并且给出错误码和详细的信息告诉你文件不存在。
    正常情况下,文件打开后,调用read()方法可以一次读取文件的全部内容,Python把内容读到内存,用一个str对象表示。最后一步是调用close()方法关闭文件。
    但是每次都这么写实在太繁琐,所以,Python引入了with语句来自动帮我们调用close()方法。

  • 写文件
    写文件和读文件是一样的,唯一区别是调用open()函数时,传入标识符’w’。
    需要注意的是,以’w’模式写入文件时,如果文件已存在,会直接覆盖(相当于删掉后新写入一个文件)。如果我们希望追加到文件末尾怎么办?可以传入’a’以追加(append)模式写入。
    你会发现,无论’r’、‘w’、'a’都是开始所描述open()方法中的第二参数模式的一种。mode参数默认为文本模式,如果要以二进制模式打开,加上 b。

  • 学习对excel及csv文件进行操作

  • 不论对于哪种格式的文件,读写的基本方法是一致的,但是需要注意的一点是对于同一个文件,以不同的格式打开,相应能够进行的读写操作是不一样的。
    (1)对excel文件进行操作。使用xlrd读取文件,使用xlwt生成Excel文件(可以控制Excel中单元格的格式)。但是用xlrd读取excel是不能对其进行操作的;而xlwt生成excel文件是不能在已有的excel文件基础上进行修改的,如需要修改文件就要使用xluntils模块。pyExcelerator模块与xlwt类似,也可以用来生成excel文件。
    (2)对csv文件进行操作。csv是逗号分隔值文件格式,一般用WORDPAD或记事本(NOTE),EXCEL打开。csv(逗号分隔值)是一种用来存储数据的纯文本文件,通常都是用于存放电子表格或数据的一种文件格式。

os模块

os 模块提供了非常丰富的方法用来处理文件和目录。常用的方法如下表所示:

序号方法及描述
1os.access(path, mode)检验权限模式
2os.chdir(path)改变当前工作目录
3os.chflags(path, flags)设置路径的标记为数字标记。
4os.chmod(path, mode)更改权限
5os.chown(path, uid, gid)更改文件所有者
6os.chroot(path)改变当前进程的根目录
7os.close(fd)关闭文件描述符 fd
8os.closerange(fd_low, fd_high)关闭所有文件描述符,从 fd_low (包含) 到 fd_high (不包含), 错误会忽略
9os.dup(fd)复制文件描述符 fd
10os.dup2(fd, fd2)将一个文件描述符 fd 复制到另一个 fd2
11os.fchdir(fd)通过文件描述符改变当前工作目录
12os.fchmod(fd, mode)改变一个文件的访问权限,该文件由参数fd指定,参数mode是Unix下的文件访问权限。
13os.fchown(fd, uid, gid)修改一个文件的所有权,这个函数修改一个文件的用户ID和用户组ID,该文件由文件描述符fd指定。
14os.fdatasync(fd)强制将文件写入磁盘,该文件由文件描述符fd指定,但是不强制更新文件的状态信息。
15os.fdopen(fd[, mode[, bufsize]])通过文件描述符 fd 创建一个文件对象,并返回这个文件对象
16os.fpathconf(fd, name)返回一个打开的文件的系统配置信息。name为检索的系统配置的值,它也许是一个定义系统值的字符串,这些名字在很多标准中指定(POSIX.1, Unix 95, Unix 98, 和其它)。
17os.fstat(fd)返回文件描述符fd的状态,像stat()。
18os.fstatvfs(fd)返回包含文件描述符fd的文件的文件系统的信息,像 statvfs()
19os.fsync(fd)强制将文件描述符为fd的文件写入硬盘。
20os.ftruncate(fd, length)裁剪文件描述符fd对应的文件, 所以它最大不能超过文件大小。
21os.getcwd()返回当前工作目录
22os.getcwdu()返回一个当前工作目录的Unicode对象
23os.isatty(fd)如果文件描述符fd是打开的,同时与tty(-like)设备相连,则返回true, 否则False。
24os.lchflags(path, flags)设置路径的标记为数字标记,类似 chflags(),但是没有软链接
25os.lchmod(path, mode)修改连接文件权限
26os.lchown(path, uid, gid)更改文件所有者,类似 chown,但是不追踪链接。
27os.link(src, dst)创建硬链接,名为参数 dst,指向参数 src
28os.listdir(path)返回path指定的文件夹包含的文件或文件夹的名字的列表。
29os.lseek(fd, pos, how)设置文件描述符 fd当前位置为pos, how方式修改: SEEK_SET 或者 0 设置从文件开始的计算的pos; SEEK_CUR或者 1 则从当前位置计算; os.SEEK_END或者2则从文件尾部开始. 在unix,Windows中有效
30os.lstat(path)像stat(),但是没有软链接
31os.major(device)从原始的设备号中提取设备major号码 (使用stat中的st_dev或者st_rdev field)。
32os.makedev(major, minor)以major和minor设备号组成一个原始设备号
33os.makedirs(path[, mode])递归文件夹创建函数。像mkdir(), 但创建的所有intermediate-level文件夹需要包含子文件夹。
34os.minor(device)从原始的设备号中提取设备minor号码 (使用stat中的st_dev或者st_rdev field )。
35os.mkdir(path[, mode])以数字mode的mode创建一个名为path的文件夹.默认的 mode 是 0777 (八进制)。
36os.mkfifo(path[, mode])创建命名管道,mode 为数字,默认为 0666 (八进制)
37os.mknod(filename[, mode=0600, device])创建一个名为filename文件系统节点(文件,设备特别文件或者命名pipe)。
38os.open(file, flags[, mode])打开一个文件,并且设置需要的打开选项,mode参数是可选的
39os.openpty()打开一个新的伪终端对。返回 pty 和 tty的文件描述符。
40os.pathconf(path, name)返回相关文件的系统配置信息。
41os.pipe()创建一个管道. 返回一对文件描述符(r, w) 分别为读和写
42os.popen(command[, mode[, bufsize]])从一个 command 打开一个管道
43os.read(fd, n)从文件描述符 fd 中读取最多 n 个字节,返回包含读取字节的字符串,文件描述符 fd对应文件已达到结尾, 返回一个空字符串。
44os.readlink(path)返回软链接所指向的文件
45os.remove(path)删除路径为path的文件。如果path 是一个文件夹,将抛出OSError; 查看下面的rmdir()删除一个 directory。
46os.removedirs(path)递归删除目录。
47os.rename(src, dst)重命名文件或目录,从 src 到 dst
48os.renames(old, new)递归地对目录进行更名,也可以对文件进行更名。
49os.rmdir(path)删除path指定的空目录,如果目录非空,则抛出一个OSError异常。
50os.stat(path)获取path指定的路径的信息,功能等同于C API中的stat()系统调用。
51os.stat_float_times([newvalue])决定stat_result是否以float对象显示时间戳
52os.statvfs(path)获取指定路径的文件系统统计信息
53os.symlink(src, dst)创建一个软链接
54os.tcgetpgrp(fd)返回与终端fd(一个由os.open()返回的打开的文件描述符)关联的进程组
55os.tcsetpgrp(fd, pg)设置与终端fd(一个由os.open()返回的打开的文件描述符)关联的进程组为pg。
56os.tempnam([dir[, prefix]])Python3 中已删除。返回唯一的路径名用于创建临时文件。
57os.tmpfile()Python3 中已删除。返回一个打开的模式为(w+b)的文件对象 .这文件对象没有文件夹入口,没有文件描述符,将会自动删除。
58os.tmpnam()Python3 中已删除。为创建一个临时文件返回一个唯一的路径
59os.ttyname(fd)返回一个字符串,它表示与文件描述符fd 关联的终端设备。如果fd 没有与终端设备关联,则引发一个异常。
60os.unlink(path)删除文件路径
61os.utime(path, times)返回指定的path文件的访问和修改的时间。
63os.write(fd, str)写入字符串到文件描述符 fd中. 返回实际写入的字符串长度
64os.path 模块获取文件的属性信息。

datetime模块

datetime是Python处理日期和时间的标准库,这个模块重新封装了time模块,提供更多接口,提供的类有:date,time,datetime,timedelta,tzinfo。

类名功能说明
date日期对象,常用的属性有year, month, day
time时间对象
datetime日期时间对象,常用的属性有hour, minute, second, microsecond
timedelta时间间隔,即两个时间点之间的长度
tzinfo时区信息对象

每种类都有各自固定的数据结构以及方法属性。下面依次做些简单介绍。

  • date类
    (1) 数据结构:datetime.date(year, month, day)
    (2)方法和属性:

d1 = date(2011,06,03)#date对象

方法属性
date.max、date.mindate对象所能表示的最大、最小日期
date.resolutiondate对象表示日期的最小单位。这里是天。
date.today()返回一个表示当前本地日期的date对象
date.fromtimestamp(timestamp)根据给定的时间戮,返回一个date对象
d1.year、date.month、date.day年、月、日
d1.replace(year, month, day)生成一个新的日期对象,用参数指定的年,月,日代替原有对象中的属性。(原有对象仍保持不变)
d1.timetuple()返回日期对应的time.struct_time对象
d1.weekday()返回weekday,如果是星期一,返回0;如果是星期2,返回1,以此类推
d1.isoweekday()返回weekday,如果是星期一,返回1;如果是星期2,返回2,以此类推
d1.isocalendar()返回格式如(year,month,day)的元组
d1.isoformat()返回格式如’YYYY-MM-DD’的字符串
d1.strftime(fmt)和time模块format相同
from datetime import *

now = date(2016, 10, 26)
tomorrow = now.replace(day = 27)
print 'now:', now, ', tomorrow:', tomorrow
print 'timetuple():', now.timetuple()
print 'weekday():', now.weekday()
print 'isoweekday():', now.isoweekday()
print 'isocalendar():', now.isocalendar()
print 'isoformat():', now.isoformat()
print 'strftime():', now.strftime("%Y-%m-%d")

#Output========================
# now: 2016-10-26 , tomorrow: 2016-10-27
# timetuple(): time.struct_time(tm_year=2016, tm_mon=10, tm_mday=26, tm_hour=0, tm_min=0, tm_sec=0, tm_wday=2, tm_yday=300, tm_isdst=-1)
# weekday(): 2
# isoweekday(): 3
# isocalendar(): (2016, 43, 3)
# isoformat(): 2016-10-26
# strftime(): 2016-10-26
  • time类
    (1) 数据结构:datetime.time(hour[ , minute[ , second[ , microsecond[ , tzinfo] ] ] ] )
    (2)方法和属性:
    t1 = datetime.time(10,23,15)#time对象
方法属性
time.min、time.maxtime类所能表示的最小、最大时间。其中,time.min = time(0, 0, 0, 0), time.max = time(23, 59, 59, 999999)
time.resolution时间的最小单位,这里是1微秒
t1.hour、t1.minute、t1.second、t1.microsecond时、分、秒、微秒
t1.tzinfo时区信息
t1.replace([ hour[ , minute[ , second[ , microsecond[ , tzinfo] ] ] ] ] )创建一个新的时间对象,用参数指定的时、分、秒、微秒代替原有对象中的属性(原有对象仍保持不变)
t1.isoformat()返回型如"HH:MM:SS"格式的字符串表示
t1.strftime(fmt)同time模块中的format
from  datetime import *

tm = time(23, 46, 10)
print   'tm:', tm
print   'hour: %d, minute: %d, second: %d, microsecond: %d' % (tm.hour, tm.minute, tm.second, tm.microsecond)
tm1 = tm.replace(hour=20)
print   'tm1:', tm1
print   'isoformat():', tm.isoformat()
print   'strftime()', tm.strftime("%X")

#Output==============================================
# tm: 23:46:10
# hour: 23, minute: 46, second: 10, microsecond: 0
# tm1: 20:46:10
# isoformat(): 23:46:10
# strftime() 23:46:10

  • datetime类
    (1) datetime相当于date和time结合起来。数据结果:datetime.datetime (year, month, day[ , hour[ , minute[ , second[ , microsecond[ , tzinfo] ] ] ] ] )
    (2)方法和属性:
    dt=datetime.now()#datetime对象
方法属性
datetime.today()返回一个表示当前本地时间的datetime对象
datetime.now([tz])返回一个表示当前本地时间的datetime对象,如果提供了参数tz,则获取tz参数所指时区的本地时间
datetime.fromtimestamp(timestamp[, tz])根据时间戮创建一个datetime对象,参数tz指定时区信息
datetime.utcfromtimestamp(timestamp)根据时间戮创建一个datetime对象
datetime.combine(date, time)根据date和time,创建一个datetime对象
datetime.strptime(date_string, format)将格式字符串转换为datetime对象
dt.year、month、day、hour、minute、second、microsecond、tzinfo同上
dt.date()获取date对象
dt.time()获取time对象
dt. replace ([ year[ , month[ , day[ , hour[ , minute[ , second[ , microsecond[ , tzinfo] ] ] ] ] ] ] ])同上
dt. timetuple ()、dt. utctimetuple ()、dt. toordinal ()、dt. weekday ()、dt. isocalendar ()、dt. isoformat ([ sep] ) 、dt. strftime (format)同上
dt. ctime ()返回一个日期时间的C格式字符串,等效于time.ctime(time.mktime(dt.timetuple()))
from  datetime import *
import time

print   'datetime.max:', datetime.max
print   'datetime.min:', datetime.min
print   'datetime.resolution:', datetime.resolution
print   'today():', datetime.today()
print   'now():', datetime.now()
print   'utcnow():', datetime.utcnow()
print   'fromtimestamp(tmstmp):', datetime.fromtimestamp(time.time())
print   'utcfromtimestamp(tmstmp):', datetime.utcfromtimestamp(time.time())

#output======================
# datetime.max: 9999-12-31 23:59:59.999999
# datetime.min: 0001-01-01 00:00:00
# datetime.resolution: 0:00:00.000001
# today(): 2016-10-26 23:12:51.307000
# now(): 2016-10-26 23:12:51.307000
# utcnow(): 2016-10-26 15:12:51.307000
# fromtimestamp(tmstmp): 2016-10-26 23:12:51.307000
# utcfromtimestamp(tmstmp): 2016-10-26 15:12:51.307000
  • timedelta类,时间加减
    使用timedelta可以很方便的在日期上做天days,小时hour,分钟,秒,毫秒,微妙的时间计算,如果要计算月份则需要另外的办法。
#coding:utf-8
from  datetime import *

dt = datetime.now()
#日期减一天
dt1 = dt + timedelta(days=-1)#昨天
dt2 = dt - timedelta(days=1)#昨天
dt3 = dt + timedelta(days=1)#明天
delta_obj = dt3-dt
print type(delta_obj),delta_obj#<type 'datetime.timedelta'> 1 day, 0:00:00
print delta_obj.days ,delta_obj.total_seconds()#1 86400.0
  • tzinfo时区类
#! /usr/bin/python
# coding=utf-8

from datetime import datetime, tzinfo,timedelta

"""
tzinfo是关于时区信息的类
tzinfo是一个抽象类,所以不能直接被实例化
"""
class UTC(tzinfo):
    """UTC"""
    def __init__(self,offset = 0):
        self._offset = offset

    def utcoffset(self, dt):
        return timedelta(hours=self._offset)

    def tzname(self, dt):
        return "UTC +%s" % self._offset

    def dst(self, dt):
        return timedelta(hours=self._offset)

#北京时间
beijing = datetime(2011,11,11,0,0,0,tzinfo = UTC(8))
print "beijing time:",beijing
#曼谷时间
bangkok = datetime(2011,11,11,0,0,0,tzinfo = UTC(7))
print "bangkok time",bangkok
#北京时间转成曼谷时间
print "beijing-time to bangkok-time:",beijing.astimezone(UTC(7))

#计算时间差时也会考虑时区的问题
timespan = beijing - bangkok
print "时差:",timespan

#Output==================
# beijing time: 2011-11-11 00:00:00+08:00
# bangkok time 2011-11-11 00:00:00+07:00
# beijing-time to bangkok-time: 2011-11-10 23:00:00+07:00
# 时差: -1 day, 23:00:00

类和对象

Python从设计之初就已经是一门面向对象的语言,面向对象最重要的概念就是类(Class)和实例(Instance),必须牢记类是抽象的模板,比如老师、学生、医生、汽车、猫、狗等等都是类的一种,而实例是根据类创建出来的一个个具体的“对象”,每个对象都拥有相同的方法,但各自的数据可能不同。下面列表的内容是面向对象语言中需要搞清楚的一些重要概念。

名称概念
类(Class)用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。
方法类中定义的函数。
类变量类变量在整个实例化的对象中是公用的。类变量定义在类中且在函数体之外。类变量通常不作为实例变量使用。
数据成员类变量或者实例变量用于处理类及其实例对象的相关的数据。
方法重写如果从父类继承的方法不能满足子类的需求,可以对其进行改写,这个过程叫方法的覆盖(override),也称为方法的重写。
局部变量定义在方法中的变量,只作用于当前实例的类。
实例变量在类的声明中,属性是用变量来表示的。这种变量就称为实例变量,是在类声明的内部但是在类的其他成员方法之外声明的。
继承即一个派生类(derived class)继承基类(base class)的字段和方法。继承也允许把一个派生类的对象作为一个基类对象对待。例如,有这样一个设计:一个Dog类型的对象派生自Animal类,这是模拟"是一个(is-a)"关系(例图,Dog是一个Animal)。
实例化创建一个类的实例,类的具体对象。
对象通过类定义的数据结构实例。对象包括两个数据成员(类变量和实例变量)和方法。
  • 类定义
    类实例化后,可以使用其属性,实际上,创建一个类之后,可以通过类名访问其属性。
  • 类对象
    类对象支持两种操作:属性引用和实例化。属性引用使用和 Python 中所有的属性引用一样的标准语法:obj.name。类对象创建后,类命名空间中所有的命名都是有效属性名。
  • 类的方法
    在类的内部,使用 def 关键字来定义一个方法,与一般函数定义不同,类方法必须包含参数 self, 且为第一个参数,self 代表的是类的实例。
  • 继承
    Python 同样支持类的继承,如果一种语言不支持继承,类就没有什么意义。
  • 多继承
    Python同样有限的支持多继承形式。需要注意圆括号中父类的顺序,若是父类中有相同的方法名,而在子类使用时未指定,python从左至右搜索 即方法在子类中未找到时,从左到右查找父类中是否包含方法。
  • 方法重写
    如果你的父类方法的功能不能满足你的需求,你可以在子类重写你父类的方法。
  • 类属性与方法
    在类的内部,使用 def 关键字来定义一个方法,与一般函数定义不同,类方法必须包含参数 self,且为第一个参数,self 代表的是类的实例。self 的名字并不是规定死的,也可以使用 this,但是最好还是按照约定是用 self。

正则表达式

实话说,小白学习正则表达式的时候有种撞墙的冲动^吐血!$ 需要强调的一点是正则表达式非常强大,学好了可以让你的编程事半功倍,尤其是程序的应用实践方面。不过正如很多明白人已经讲过的,要讲清楚正则的所有内容,可以写一本厚厚的书了;如果你经常遇到正则表达式的问题,你可能需要一本正则表达式的参考书。所以作为小白自学的基础介绍,这里将把重点放在对正则表达式概念的认知上,搞明白正则表达式是什么、主要用来做什么以及一些简单的示例就可以了。
如果用一句话描述对初学正则表达式的认识,那就是一套关于字符串的规范法则。有点类似交通法规,比如靠右行、红灯停绿灯行等诸如此类的明确要求与约定,用以保障交通通畅和车辆行驶安全。
关于正则表达式,个人认为还是廖雪峰老师讲解的清楚明了。
字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在。比如判断一个字符串是否是合法的Email地址,虽然可以编程提取@前后的子串,再分别判断是否是单词和域名,但这样做不但麻烦,而且代码难以复用。
正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。
所以我们判断一个字符串是否是合法的Email的方法是:
1.创建一个匹配Email的正则表达式;
2.用该正则表达式去匹配用户的输入来判断是否合法。
因为正则表达式也是用字符串表示的,所以,我们要首先了解如何用字符来描述字符。
在正则表达式中,如果直接给出字符,就是精确匹配。用\d可以匹配一个数字,\w可以匹配一个字母或数字,所以:
‘00\d’可以匹配’007’,但无法匹配’00A’;
‘\d\d\d’可以匹配’010’;
‘\w\w\d’可以匹配’py3’;
.可以匹配任意字符,所以:
‘py.‘可以匹配’pyc’、‘pyo’、‘py!‘等等。
要匹配变长的字符,在正则表达式中,用*表示任意个字符(包括0个),用+表示至少一个字符,用?表示0个或1个字符,用{n}表示n个字符,用{n,m}表示n-m个字符:
来看一个复杂的例子:\d{3}\s+\d{3,8}。
我们来从左到右解读一下:
1.\d{3}表示匹配3个数字,例如’010’;
2.\s可以匹配一个空格(也包括Tab等空白符),所以\s+表示至少有一个空格,例如匹配’ ‘,’ ‘等;
3.\d{3,8}表示3-8个数字,例如’1234567’。
综合起来,上面的正则表达式可以匹配以任意个空格隔开的带区号的电话号码。
如果要匹配’010-12345’这样的号码呢?由于’-‘是特殊字符,在正则表达式中,要用’‘转义,所以,上面的正则是\d{3}-\d{3,8}。
但是,仍然无法匹配’010 - 12345’,因为带有空格。所以我们需要更复杂的匹配方式。
要做更精确地匹配,可以用[]表示范围,比如:
[0-9a-zA-Z_]可以匹配一个数字、字母或者下划线;
[0-9a-zA-Z_]+可以匹配至少由一个数字、字母或者下划线组成的字符串,比如’a100’,‘0_Z’,‘Py3000’等等;
[a-zA-Z_][0-9a-zA-Z_]*可以匹配由字母或下划线开头,后接任意个由一个数字、字母或者下划线组成的字符串,也就是Python合法的变量;
[a-zA-Z_][0-9a-zA-Z_]{0, 19}更精确地限制了变量的长度是1-20个字符(前面1个字符+后面最多19个字符)。
A|B可以匹配A或B,所以(P|p)ython可以匹配’Python’或者’python’。
表示行的开头,\d表示必须以数字开头。
KaTeX parse error: Expected 'EOF', got '\d' at position 8: 表示行的结束,\̲d̲表示必须以数字结束。
你可能注意到了,py也可以匹配’python’,但是加上^py$就变成了整行匹配,就只能匹配’py’了。

re模块

re 模块使 Python 语言拥有全部的正则表达式功能。

-re.match函数
re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。
函数语法:
re.match(pattern, string, flags=0)

参数描述
pattern匹配的正则表达式
string要匹配的字符串
flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
  • re.search方法
    re.search 扫描整个字符串并返回第一个成功的匹配。
    函数语法:
    re.search(pattern, string, flags=0)

需要注意的是,re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而search匹配整个字符串,直到找到一个匹配。

  • re.sub方法
    函数语法:
    re.sub(pattern, repl, string, count=0)
参数描述
pattern正则中的模式字符串。
string替换的字符串,也可为一个函数。
flags要被查找替换的原始字符串。
count模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。
#!/usr/bin/python3
import re
 
phone = "2004-959-559 # 这是一个电话号码"
 
# 删除注释
num = re.sub(r'#.*$', "", phone)
print ("电话号码 : ", num)
 
# 移除非数字的内容
num = re.sub(r'\D', "", phone)
print ("电话号码 : ", num)

输出结果:

电话号码 :  2004-959-559 
电话号码 :  2004959559
  • compile 函数
    compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。
    语法格式为:
    re.compile(pattern[, flags])
    参数说明:
    pattern : 一个字符串形式的正则表达式
    flags 可选,表示匹配模式,比如忽略大小写,多行模式等,具体参数为:
    re.I 忽略大小写
    re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
    re.M 多行模式
    re.S 即为’ . ‘并且包括换行符在内的任意字符(’ . ‘不包括换行符)
    re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
    re.X 为了增加可读性,忽略空格和’ # '后面的注释。
  • findall
    在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。
    注意: match 和 search 是匹配一次 findall 匹配所有。
    语法格式为:
    findall(string[, pos[, endpos]])
    参数:
    string 待匹配的字符串。
    pos 可选参数,指定字符串的起始位置,默认为 0。
    endpos 可选参数,指定字符串的结束位置,默认为字符串的长度。
  • re.finditer
    和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。
    语法结构:
    re.finditer(pattern, string, flags=0)
  • re.split
    split 方法按照能够匹配的子串将字符串分割后返回列表,它的使用形式如下:
    re.split(pattern, string[, maxsplit=0, flags=0])
    参数说明:
    maxsplit:分隔次数,maxsplit=1 分隔一次,默认为 0,不限制次数。

http请求

在Web应用中,服务器把网页传给浏览器,实际上就是把网页的HTML代码发送给浏览器,让浏览器显示出来。而浏览器和服务器之间的传输协议是HTTP,所以:
(1)HTML是一种用来定义网页的文本,会HTML,就可以编写网页;
(2)HTTP是在网络上传输HTML的协议,用于浏览器和服务器的通信。
HTTP请求的流程:
步骤1:浏览器首先向服务器发送HTTP请求,请求包括:
方法:GET还是POST,GET仅请求资源,POST会附带用户数据;
路径:/full/url/path;
域名:由Host头指定:Host: www .sina .com .cn
以及其他相关的Header;
如果是POST,那么请求还包括一个Body,包含用户数据。
步骤2:服务器向浏览器返回HTTP响应,响应包括:
响应代码:200表示成功,3xx表示重定向,4xx表示客户端发送的请求有错误,5xx表示服务器端处理时发生了错误;
响应类型:由Content-Type指定;
以及其他相关的Header;
通常服务器的HTTP响应会携带内容,也就是有一个Body,包含响应的内容,网页的HTML源码就在Body中。
步骤3:如果浏览器还需要继续向服务器请求其他资源,比如图片,就再次发出HTTP请求,重复步骤1、2。
Web采用的HTTP协议采用了非常简单的请求-响应模式,从而大大简化了开发。当我们编写一个页面时,我们只需要在HTTP请求中把HTML发送出去,不需要考虑如何附带图片、视频等,浏览器如果需要请求图片和视频,它会发送另一个HTTP请求,因此,一个HTTP请求只处理一个资源。
HTTP协议同时具备极强的扩展性,虽然浏览器请求的是 http:/ /www. sina. com. cn/ 的首页,但是新浪在HTML中可以链入其他服务器的资源,比如<img src=" http: // i1. sinaimg. cn/home /2013/1008/U8455 P30DT20131008135420.png">, 从而将请求压力分散到各个服务器上,并且,一个站点可以链接到其他站点,无数个站点互相链接起来,就形成了World Wide Web,简称WWW。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值