一 python 并发调度运行很慢的原因
Python 并发调度运行慢可能由多种因素引起,以下是一些可能导致性能问题的原因以及相应的优化方法:
-
全局解释器锁(GIL):在 CPython 解释器中,GIL 限制了同一时刻只能有一个线程执行 Python 字节码。这可能导致多线程在 CPU 密集型任务中无法有效利用多核处理器,因为线程不能真正并行执行 3。
-
线程切换开销:多线程运行过程中容易被打断,导致 race condition 的情况,并且线程切换本身存在一定的损耗。线程数不能无限增加,如果 I/O 操作非常 heavy,多线程可能无法满足高效率的需求 1。
-
资源竞争和锁的争用:当多个线程或进程需要访问共享资源时,如果没有适当的同步机制,如队列、锁等,可能会导致数据竞争和不一致性,从而影响性能 2。
-
进程间通信开销:在多进程编程中,进程间通信(IPC)的开销可能较大,尤其是当使用某些同步原语如管道或队列时 4。
-
任务的拆分与合并不当:对于大规模任务,如果拆分不当,可能会导致线程或进程间工作负载不均衡,合并任务时如果处理不当也可能会引入额外开销 2。
-
未选择适合的并发模型:对于 I/O 密集型任务,使用多线程或异步编程可能更有效;而对于 CPU 密集型任务,使用多进程可能更合适。错误的选择可能导致性能不佳 5。
-
并发框架和库的选择:使用不适合的并发框架或库可能会影响性能。例如,
requests
库并不兼容 Asyncio,而aiohttp
库兼容,如果使用不当,可能会降低效率 1。 -
系统资源限制:系统资源(如内存、处理器速度)的限制也可能影响并发调度的性能。
针对上述问题,可以采取以下优化策略:
- 对于 CPU 密集型任务,使用多进程或异步编程模型来避免 GIL 的限制 3。
- 合理设置线程池和进程池的大小,避免资源竞争和开销增大 2。
- 使用同步机制来避免数据竞争和不一致性,但要注意同步机制也可能带来额外的开销。
- 对于 I/O 密集型任务,可以考虑使用异步编程模型,如
asyncio
,来提高效率 15。 - 拆分和合并任务时,要考虑到任务的特性和执行开销,避免因不合理的拆分合并导致性能下降。
- 选择合适的并发框架和库,确保它们与所使用的并发模型兼容,并能够充分发挥系统性能。
- 定期进行性能分析,使用工具来定位程序的性能瓶颈,并有针对性地进行优化 2。
二 正确代码
def start_scheduler(use_url):
client = WidClient(grpc_target=settings.grpc_target, wid_org_id=settings.org_id)
local_tz = get_localzone() # 获取时区
tz_now = tz.gettz(settings.Time_Zone) # 配置时区
pac_alum = PacAlum(client, tz_now)
scheduler = BlockingScheduler() # 采用阻塞的方式
# 统一调度算法模块,分拆上传数据模块,上传算法使用的数据
scheduler.add_job(func=pac_alum.start_process, trigger=CronTrigger(minute=f"*/1", # 1分钟调度一次
second=40, timezone=local_tz), args=[use_url])
# 配置任务执行错误和错过执行的监听
logging.info(f'调度器 {use_url} 启动')
scheduler.start()
if __name__ == '__main__':
logging.info(f'程序正常启动')
processes = []
for num in range(len(settings.camera_url_lst)):
p = Process(target=start_scheduler, args=(num,))
processes.append(p)
p.start()
for p in processes:
p.join()