来源 | towardsdatascience.com
编译 | 数说君
出品 | 数说工作室
原标题:Here’s how you can get a 2–6x speed-up on your data pre-processing with Python
最近在 Towards Data Science 上看到一篇文章,如何用 Python 进行并行处理,觉得非常有帮助,因此介绍给大家,用我的风格对文章做了编译。
数据的预处理,是机器学习非常重要的一环。尽管 Python 提供了很多让人欲罢不能的库,但数据量一大,就不是那么回事了。
面对着海量的数据,再狂拽炫酷的计算都苍白无力,每一个简单的计算都要不断告诉自己:
Python,你算的累不累,
饿不饿?
渴不渴?
会不会让我等待太久,
是否可以快一点。
一方面是低效率,另一方面呢,却是电脑资源的闲置,给你们算笔账:
现在我们做机器学习的个人电脑,大部分都是双CPU核的,有的是4核甚至6核(intel i7)。而 Python 默认情况下是用单核进行做数据处理,这就意味着,Python 处理数据时,电脑有50%的处理能力被闲置了!