好物推荐!Python的datatable程序包概述

Python的datatable库是专为大数据设计的,提供高速、内存外存数据集支持和多线程算法。与pandas类似,但更注重速度和性能。文章详细介绍了datatable的安装、读取数据、转换、基础属性、汇总统计信息、数据操作等功能,并通过与pandas的对比,展示了datatable在处理大型数据集时的优势。
摘要由CSDN通过智能技术生成

全文共5270字,预计学习时长11分钟或更长

图片来源:pexels.com/@divinetechygirl

从文明之初到2003年,只创造了5艾字节的信息,但是现在每两天就有如此之多的信息产生。

埃里克·施密特(Eric Schmidt)

如果你是R使用者,可能你已经使用过data.table程序包。Data.table是R中数据帧程序包的延伸。涉及大型数据(包括RAM中1的10GB)快速集合时,该数据包也是R使用者的首选程序包。

R的data.table程序包使用简易方便,非常通用且拥有高性能。在R领域,此包十分出名,其每月下载量超过了4万,几乎650 CRAN(新型无线接入网构架)及Bioconductor包使用这个datatable包。

所以,Python使用者可以从中得到什么?好消息是Python中也有与data.table等同的程序包,称为datatable,其明确注重大数据支持、高性能、内存外存数据集以及多线程算法。某种程度上来说,这个也可以称为data.table的年轻同胞。

Datatable

 

现代机器学习应用需要处理巨大数量的数据并生成多个功能。为了构建更精确的模型,这是必需的。Python的datatable模块正是为了应对这种类问题而创建的。这就相当于是一个在单节机器上以尽可能最大的速度运行大数据(达100GB)的工具包。datatable由H2O.ai 出资开发,其首个使用者是 Driverless.ai。

此工具箱与panda非常相似,但更侧重于速度和大数据支持。

Pythondatatable也力求用户良好体验,反馈错误信息,拥有强大的API(应用程序编程接口)。通过本文,可以了解如何使用此datatable以及其用于大数据时是如何优于pandas的。

安装

在MacOs中,datatable可简单地利用pip进行安装:

pip install datatable

在Linux中,利用二进制发行版,就可以实现安装,如下所示:

# If you have Python 3.5
pip install https://s3.amazonaws.com/h2o-
release/datatable/stable/datatable-
0.8.0/datatable-0.8.0-cp35-cp35m-
linux
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值