- dask: 一开始是作为并行计算pandas dataframe使用的, 后来发现还很强大, 支持scikit, tpot等机器学习相关. 轻量化, 基于py社区(与之对应的是spark, 虽然有py版本, 但是本质是一个大而全的整个系统)
- numba:加速数学运算, 尤其原生计算和numpy计算, 特别支持挺多计算函数(random等)
- petastorm: uber支持的创建dataset的lib
- 有时候从数据库下载太慢, 要记得用shell直接下载成本地文件(快很多)
- from toolz import partition_all 也是并行计算的好的方法
工具记录:最近学习机器学习加速工具
最新推荐文章于 2024-05-15 08:56:29 发布