在用Python批量处理某些事务时,一个定式如下:
def do_sth(item):
# 一些事务
for item in items:
do_sth(item)
如果每一个item的处理是可以乱序执行的,我们可以多线程并行执行,起到加速效果:
from multiprocessing.pool import ThreadPool
def do_sth(item):
# 一些事务
pool = ThreadPool(processes=32)
for item in items:
pool.apply_async(func=do_sth, args=(item,))
pool.close()
pool.join()
有的时候do_sth涉及到写文件,这种时候需要在写文件的时候加锁,保证同时至多有一个线程访问该文件,从而保证正确性:
from multiprocessing.pool import ThreadPool
from threading import Lock
with open('test.txt', 'w') as f:
def do_sth(item):
# 一些事务
with lock:
f.write('something')
# 一些事务
pool = ThreadPool(processes=32)
for item in items:
pool.apply_async(func=do_sth, args=(item,))
pool.close()
pool.join()
如果不加锁的话,可能会出现写入混乱,最终的文件中包含0xc4这样的乱码。在读取这样的写入结果文件时(使用open),会报形如以下的UnicodeDecodeError:
UnicodeDecodeError:‘utf-8‘codec can‘t decode byte 0xc4 in position 0: invalid continuation byte
一个补救方式是手动检查文件中的非Unicode字符并删掉。在vim里可以使用以下正则表达式来匹配非英文字符:
/[^a-zA-Z0-9{}": /_.,?'!#$%&*()-+-\\\;><=|~`\[\]^@]