正则表达式re包(import re)
正则表达式
time包
datetime包是基于time的一个包
路径与文件 os.path
subprocess包
当我们运行python的时候,我们都是在创建并运行一个进程。一个进程可以fork一个子进程,并让这个子进程exec另外一个程序。在Python中,我们通过标准库中的subprocess包来fork一个子进程,并运行一个外部的程序。
subprocess包中定义有数个创建子进程的函数,这些函数分别以不同的方式创建子进程,所以我们可以根据需要来从中选取一个使用。另外subprocess还提供了一些管理标准流(standard stream)和管道(pipe)的工具,从而在进程间使用文本通信。
使用subprocess包中的函数创建子进程的时候,要注意:
-
1 在创建子进程之后,父进程是否暂停,并等待子进程运行。
-
2 函数返回什么
-
3 当returncode不为0时,父进程如何处理。
Popen()
实际上,我们上面的三个函数都是基于Popen()的封装(wrapper)。这些封装的目的在于让我们容易使用子进程。当我们想要更个性化我们的需求的时候,就要转向Popen类,该类生成的对象用来代表子进程。与上面的封装不同,Popen对象创建后,主程序不会自动等待子进程完成。我们必须调用对象的wait()方法,父进程才会等待 (也就是阻塞block):
child = subprocess.Popen()返回一个子程序进程
child.poll()检查子进程状态 child.kill(),del子进程,child.send_Signal()向子进程发送信号。child.terminate()终止子进程。
子进程的文本流控制
signal
信号signal包定义了各个信号和其对应的整数
signal包负责在Python程序内部处理信号,典型的操作包括预设信号处理函数,暂停并等待信号,以及定时发出SIGALRM等。要注意,signal包主要是针对UNIX平台(比如Linux, MAC OS),而Windows内核中由于对信号机制的支持不充分,所以在Windows上的Python不能发挥信号系统的功能。
定义信号名:
信号包定义了各个信号名及对应的整数
预设信号处理函数:核心是使用signal.signal()来预设register信号处理函数如 signal.signa(signalnum,handler)signalnum是信号名,后面的是处理函数。进程可以无视信号,采用默认操作,还可以自定义操作,当handler为signal.SIG_IGN时,信号被无视,为singal.SIG_DEF时,使用默认操作其他就调用定义的函数。MYHanlder(signum,frame)第一个参数用来识别信号,另一个用来获得信号发生时,进程栈的状况,两个参数都有signal.signal()传递。
定时发出SIGALRM信号
使用signal.alarm(),一段时间后自动发送SIGALRM信号
发送信号:signal包中除了定时没有发送信号包的函数,但是OS中有 os.kill(pid,sid) os.killpg(pgid,sid)分别向进程和进程组发送信号sisid为信号对应的整数或signal.SIG*
多线程与同步Threading
Python使用threading.Thread对象来代表线程,用threading.Lock对象来代表一个互斥锁 (mutex)。
例子thread.THread(target = booth,args= (k,)) new_thread.start()每个线程都执行booth()函数。线程在调用start()方法的时候正式启动 (实际上,计算机中最多会有11个线程,因为主程序本身也会占用一个线程)。lock.acquire(),lock.release()
-
我们在函数中使用global来声明变量为全局变量,从而让多线程共享i和lock (在C语言中,我们通过将变量放在所有函数外面来让它成为全局变量)。如果不这么声明,由于i和lock是不可变数据对象,它们将被当作一个局部变量。如果是可变数据对象的话,则不需要global声明。我们甚至可以将可变数据对象作为参数来传递给线程函数。这些线程将共享这些可变数据对象。
-
我们在booth中使用了两个doChore()函数。可以在未来改进程序,以便让线程除了进行i=i-1之外,做更多的操作,比如打印剩余票数,找钱,或者喝口水之类的。第一个doChore()依然在Lock内部,所以可以安全地使用共享资源 (critical operations, 比如打印剩余票数)。第二个doChore()时,Lock已经被释放,所以不能再去使用共享资源。这时候可以做一些不使用共享资源的操作 (non-critical operation, 比如找钱、喝水)。我故意让doChore()等待了0.5秒,以代表这些额外的操作可能花费的时间。你可以定义的函数来代替doChore()。
OOP创建线程
OOP的话,通过修改Thread类的run()方法来定义线程所要执行的命令。BoothThread, 这个类继承自thread.Threading类。然后我们把上面的booth()所进行的操作统统放入到BoothThread类的run()方法中。注意,我们没有使用全局变量声明global,而是使用了一个词典 monitor存放全局变量,monitor{'ticket':100,'lock':threading.lock()}然后把词典作为参数传递给线程函数。由于词典是可变数据对象,所以当它被传递给函数的时候,函数所使用的依然是同一个对象,相当于被多个线程所共享。这也是多线程乃至于多进程编程的一个技巧
其他:
除了start,run 可以使用join调用该方法的线程将等待知道该线程对象完成,再恢复运行。
- join()方法,调用该方法的线程将等待直到该Thread对象完成,再恢复运行。这与进程间调用wait()函数相类似。
下面的对象用于处理多线程同步。对象一旦被建立,可以被多个线程共享,并根据情况阻塞某些进程。
进程信息:os包中相关函数uname():返回操作系统相关信息,umask():设置该进程创建文件时的权限
get ,put ,getenviron,setenviron
多进程初步:multiprocessing
我们已经见过了使用subprocess包来创建子进程,但这个包有两个很大的局限性:
(1) 我们总是让subprocess运行外部的程序,而不是运行一个Python脚本内部编写的函数。
(2) 进程间只通过管道进行文本交流。以上限制了我们将subprocess包应用到更广泛的多进程任务。(这样的比较实际是不公平的,因为subprocessing本身就是设计成为一个shell,而不是一个多进程管理包)。
multiprocessing包是Python中的多进程管理包。与threading.Thread类似,它可以利用multiprocessing.Process对象来创建一个进程。该进程可以运行在Python程序内部编写的函数。该Process对象与Thread对象的用法相同,也有start(), run(), join()的方法。此外multiprocessing包中也有Lock/Event/Semaphore/Condition类 (这些对象可以像多线程那样,通过参数传递给各个进程),用以同步进程,其用法与threading包中的同名类一致。所以,multiprocessing的很大一部份与threading使用同一套API,只不过换到了多进程的情境。
但在使用这些共享API的时候,我们要注意以下几点:
-
在UNIX平台上,当某个进程终结之后,该进程需要被其父进程调用wait,否则进程成为僵尸进程(Zombie)。所以,有必要对每个Process对象调用join()方法 (实际上等同于wait)。对于多线程来说,由于只有一个进程,所以不存在此必要性。
-
multiprocessing提供了threading包中没有的IPC(比如Pipe和Queue),效率上更高。应优先考虑Pipe和Queue,避免使用Lock/Event/Semaphore/Condition等同步方式 (因为它们占据的不是用户进程的资源)。
-
多进程应该避免共享资源。在多线程中,我们可以比较容易地共享资源,比如使用全局变量或者传递参数。在多进程情况下,由于每个进程有自己独立的内存空间,以上方法并不合适。此时我们可以通过共享内存和Manager的方法来共享资源。但这样做提高了程序的复杂度,并因为同步的需要而降低了程序的效率。
Pipe和Queue
管道PIPE和消息队列message queue,multiprocessing包中有Pipe类和Queue类来分别支持这两种IPC机制。Pipe和Queue可以用来传送常见的对象。
Pipe可以是单向(half-duplex),也可以是双向(duplex)。我们通过mutiprocessing.Pipe(duplex=False)创建单向管道 (默认为双向)。一个进程从PIPE一端输入对象,然后被PIPE另一端的进程接收,单向管道只允许管道一端的进程输入,而双向管道则允许从两端输入。
Queue与Pipe相类似,都是先进先出的结构。但Queue允许多个进程放入,多个进程从队列取出对象。Queue使用mutiprocessing.Queue(maxsize)创建,maxsize表示队列中可以存放对象的最大数量。
进程池 (Process Pool)可以创建多个进程-
apply_async(func,args) 从进程池中取出一个进程执行func,args为func的参数。它将返回一个AsyncResult的对象,你可以对该对象调用get()方法以获得结果。
-
close() 进程池不再创建新的进程
-
join() wait进程池中的全部进程。必须对Pool先调用close()方法才能join。
Manager
Manager对象类似于 服务器与客户 之间的通信 (server-client),与我们在Internet上的活动很类似。我们用一个进程作为服务器,建立Manager来真正存放资源。其它的进程可以通过参数传递或者根据 地址 来访问Manager,建立连接后,操作服务器上的资源。在防火墙允许的情况下,我们完全可以将Manager运用于多计算机,从而模仿了一个真实的网络情境。下面的例子中,我们对Manager的使用类似于shared memory,但可以共享更丰富的对象类型。math包
处理数学相关运算 math.ceil 向上取整floor向下取整,pow指数运算(x,y)x的y次方 log(x)sqrt(x)三角函数: math.sin(x), math.cos(x), math.tan(x), math.asin(x), math.acos(x), math.atan(x)
这些函数都接收一个弧度(radian)为单位的x作为参数。
角度和弧度互换: math.degrees(x), math.radians(x)
双曲函数: math.sinh(x), math.cosh(x), math.tanh(x), math.asinh(x), math.acosh(x), math.atanh(x)
特殊函数: math.erf(x), math.gamma(x)