全文共5270字,预计学习时长11分钟或更长
图片来源:pexels.com/@divinetechygirl
从文明之初到2003年,只创造了5艾字节的信息,但是现在每两天就有如此之多的信息产生。
埃里克·施密特(Eric Schmidt)
如果你是R使用者,可能你已经使用过data.table程序包。Data.table是R中数据帧程序包的延伸。涉及大型数据(包括RAM中1的10GB)快速集合时,该数据包也是R使用者的首选程序包。
R的data.table程序包使用简易方便,非常通用且拥有高性能。在R领域,此包十分出名,其每月下载量超过了4万,几乎650 CRAN(新型无线接入网构架)及Bioconductor包使用这个datatable包。
所以,Python使用者可以从中得到什么?好消息是Python中也有与data.table等同的程序包,称为datatable,其明确注重大数据支持、高性能、内存外存数据集以及多线程算法。某种程度上来说,这个也可以称为data.table的年轻同胞。
Datatable
现代机器学习应用需要处理巨大数量的数据并生成多个功能。为了构建更精确的模型,这是必需的。Python的datatable模块正是为了应对这种类问题而创建的。这就相当于是一个在单节机器上以尽可能最大的速度运行大数据(达100GB)的工具包。datatable由H2O.ai 出资开发,其首个使用者是 Driverless.ai。
此工具箱与panda非常相似,但更侧重于速度和大数据支持。
Pythondatatable也力求用户良好体验,反馈错误信息,拥有强大的API(应用程序编程接口)。通过本文,可以了解如何使用此datatable以及其用于大数据时是如何优于pandas的。
安装
在MacOs中,datatable可简单地利用pip进行安装:
pip install datatable
在Linux中,利用二进制发行版,就可以实现安装,如下所示:
# If you have Python 3.5
pip install https://s3.amazonaws.com/h2o-
release/datatable/stable/datatable-
0.8.0/datatable-0.8.0-cp35-cp35m-
linux