2020年最强Python库,年度Top10出炉(下)
6、Hydra and OmegaConf
在做机器学习项目的时候,需要做一大堆的环境配置工作。因此,在一些复杂的应用程序中,配置管理工作也相应变得复杂。
Hydra可以使配置工作变得简单。它能够从命令行或者配置文件中覆盖部分出来,无需维护相似的配置文件,用组合的方式进行配置,从而加快了实验运行速度。
Hydra兼容性强,拥有含插件的结构,能够很好地与开发者的操作文件融合。它的插件还可以实现直接通过命令行,就把代码发布到AWS或者其他云端系统。
Hydra也离不开OmegaConf,两者关系密不可分,OmegaConf为Hydra的分层配置系统提供了协同的API,二者协同运作可支持YAML、配置文件、对象、CLI参数等。
7、PyTorch Lightning
PyTorch Lightning也是Facebook的一个研究成果。它是一个轻巧的PyTorch包装器,用于高性能AI研究,其最重要的特征是能够解析PyTorch代码,让代码研究成分和工程成分的分离。
它的扩展模型可以在任何硬件(CPU、GPU、TPU)上运行,且容易被复制,删除了大量的文件样本,保持了自身的灵活性,运行速度快。
Lightning能够使DL / ML研究的40多个部分实现自动化,例如GPU训练、分布式GPU(集群)训练、TPU训练等等……
因为Lightning将可以将文件自动导出到ONNX或TorchScript,所以它适用于进行快速推理的AI研究员、BERT或者自监督学习的研究团队等。
8、Hummingbird
Hummingbird是微软的一项研究成果,它能够将已经训练好的ML模型汇编成张量计算,从而不需要设计新的模型。
还允许用户使用神经网络框架(例如PyTorch)来加速传统的ML模型。
它的推理API跟sklearn范例十分相似,都可以重复使用现有的代码,但是它是用Hummingbird生成的代码去实现的。
Hummingbird还在Sklearn API之后提供了一个方便的统一推理API。这样就可以将Sklearn模型与Hummingbird生成的模型互换,而无需更改推理代码。
它之所以被重点关注,还因为它能够支持多种多样的模型和格式。
到目前为止,Hummingbird支持PyTorch、TorchScript、ONNX和TVM等各种ML模型。
9、HiPlot
由于ML模型变得越来越复杂,还有很多超参数,于是就需要用到HiPlot。HiPlot是今年3月Facebook发行的一个库,主要用于处理高维数据。
Facebook AI通过几十个超参数和10万多个实验,利用HiPlot,来分析深度神经网络。
它是用平行图和其他的图像方式,帮助AI研究者发现高维数据的相关性和模型,是一款轻巧的交互式可视化工具。
HiPlot与其他可视化工具相比,有其特有的优点:
首先,它的互动性强,因为平行图是交互式的,所以能够满足多种情况下的图像可视化。
其次,它简单易用,可以通过IPython Notebook或者通过带有“ hiplot”命令的服务直接使用。
它还有具有可扩展性。默认情况下,HiPlot的Web服务可以解析CSV或JSON文件,还可以为其提供自定义Python解析器,将实验转换为HiPlot实验。
10、Scalene
Scalene是一个用于Python脚本的CPU和内存分析器,能够正确处理多线程代码,还能区分Python代码和本机代码的运行时间。
你不需要修改代码,只需运行Scalene脚本,它就会生成一个文本形式的报告,显示出每一行代码的CPU和内存的使用情况。通过这个文本报告,开发人员可以提高代码的效率。
Scalene的速度快、准确率高,还能够对高耗能的代码行进行标注。
感谢阅读!!!