HyperLearn是一个基于PyTorch重写的机器学习工具包Scikit Learn,它的一些模块速度更快、需要内存更少,效率提高了一倍。
专为大数据而设计,HyperLearn可以使用50%以下的内存,并在某些模块上运行速度提高50%以上。将支持GPU,并且所有模块都是并行化的。
项目作者Daniel Han-Chen,毕业于澳大利亚新南威尔士大学,专注于AI、NLP和无监督机器学习的推荐和匹配算法。
基于HyperLearn,作者展示了如何让很多机器学习算法更快、更高效。
其中一些很酷的算法:
● 最小二乘法/线性回归的拟合时间相比sklearn减少70%,内存使用减少50%
● 由于新的并行算法,非负矩阵分解的拟合时间相比sklearn减少50%
● Euclidean算法/余弦相似度算法加快40%
● LSMR迭代最小二乘法时间减少50%
● 新的Reconstruction SVD算法——使用SVD来估算丢失的数据,比mean imputation方法好约30%
稀疏矩阵运算速度提高50%——并行化
● RandomizedSVD,速度加快20%~30%
● New Incremental SVD和Incremental Eig,RandomizedSVD / Truncated SVD
● 等等
项目地址: