VAEX库学习笔记

最新推荐文章于 2024-08-13 08:16:58 发布

skymacro

最新推荐文章于 2024-08-13 08:16:58 发布

阅读量3.1k

点赞数 2

分类专栏：数据分析

本文链接：https://blog.csdn.net/qq_42810165/article/details/104973916

版权

数据分析专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Vaex 是一个开源的 DataFrame 库（类似于Pandas），采用内存映射、高效的核外算法和延迟计算等概念，可对50GB甚至500GB以上的数据集高效进行可视化、探索、分析。

1. 将CSV文件转换为HDF5文件

import vaex
import numpy as np
import pandas as pd

for i ,chunk in enumerate(pd.read_csv("k:/bigdatatest.csv",chunksize=20000000)):
       df_chunk = vaex.from_pandas(chunk,copy_index=False)
       export_path = f'k:/bigdata_part_{i}.hdf5'
       df_chunk.export_hdf5(export_path)
            
df = vaex.open('k:/bigdata_part_*.hdf5')    
df.export_hdf5('k:/Final.hdf5')         #8.5G的CSV文件转换过程需20分钟

2. 读取HDF5文件

df = vaex.open('k:/Final.hdf5')  #0.14秒打开8.5G的HDF5文件
print(df.describe())             #243秒显示计算结果

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

skymacro

关注关注

2
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

DS：《Pandas局限: Dask, Ray, Modin, Vaex, RAPIDS.如何更快地处理更多的数据？CPU多线程/GPU并行/计算集群-巧妙算法(懒惰计算和内存/并行编程》的翻译与解读

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

05-05

822

DS：《Scaling Pandas: Dask, Ray, Modin, Vaex, RAPIDS.如何更快地处理更多的数据？CPU多线程/GPU并行/计算集群-巧妙算法/并行编程》的翻译与解读 DS：《Scaling Pandas: Comparing Dask, Ray, Modin, Vaex, and RAPIDS.How can you process more data quicker?如何更快地处理更多的数据？CPU多线程/GPU高效并行/多台计算集群-巧妙算法/并行编程》的翻译与解读

Vaex——一个开源的DataFrame库，它可以对表格数据集进行可视化、探索、分析，甚至机器学习

12-14

**Vaex是一个开源的DataFrame库**，它可以对表格数据集进行**可视化、探索、分析，甚至机器学习**，这些数据集和你的硬盘驱动器一样大。**它可以在一个n维网格上每秒计算超过10亿（10^9）个对象的平均值、和、计数、标准差等统计信息**。可视化使用直方图、使用直方图、密度图和3D立体渲染进行可视化。为此，**Vaex采用了内存映射、高效的外核算法和延迟计算等概念来获得最佳性能（不浪费内存）**。本文是上述介绍的.md笔记档，为一个刚好超出RAM范围（如50GB甚至500GB的数据集）的数据集做分析，又不能破费成本的设置一个集群， Vaex作为一个开源的DataFrame库，带来了解决方案！例子是使用纽约市出租车的数据集。

参与评论您还未登录，请先登录后发表或查看评论

Vaex，一个超酷的 Python 库！

Trb201012的博客

02-16

1162

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。方法进行自定义计算，这在处理复杂的数据操作时非常有用。

Python missingno和Vaex库：高性能的大数据分析

曼陀罗的博客

07-30

867

Python的missingno库提供了一种便捷且直观的方式来可视化数据缺失情况，从而帮助我们更好地理解和处理缺失值。它提供了多种图表类型，如矩阵图、条形图、热力图和树状图，帮助直观地展示数据集中缺失值的分布和模式。通过使用missingno库，数据科学家和分析师能够更轻松地识别和处理缺失数据，提高数据处理和分析的效率。它采用惰性计算和内存映射技术，允许在常规内存（RAM）中处理远超内存容量的数据。Vaex支持高效的过滤、聚合、分组和可视化操作，是进行大数据分析的理想选择。

Python Vaex库：高性能的大数据分析

GitHub_miao的博客

07-13

1004

vaex的使用

qq_45659384的博客

12-09

4007

DataFrame import vaex import numpy as np # 读取vaex自带数据 df = vaex.example() #读取指定列 df.x #获取指定列值 df.x.values #虚拟列 df['r'] = np.sqrt(df.x**2 + df.y**2 + df.z**2) #构造虚拟列由来 #重构表格 df[['x', 'y', 'z', 'r']] #将一个内存阵列添加为一列 df.add_column(name, f_or_array, dtype=None)

vaex-examples:使用vaex的示例

05-04

Vaex是一个高效的Python库，主要用于大数据的探索和分析。它设计的目标是处理超过内存大小的数据集，通过懒惰计算和并行化操作实现快速可视化和统计。在这个名为"vaex-examples"的压缩包中，我们可以找到一系列使用...

使用Python包Vaex读入并分析100G数据

weixin_46453301的博客

01-07

1257

许多组织都在尝试收集和利用尽可能多的数据，以改善其经营方式，增加收入和提升影响力。因此，数据科学家面对50GB甚至500GB大小的数据集情况变得越来越普遍。不过，这类数据集使用起来不太容易。它们足够小，可以装入日常笔记本电脑的硬盘驱动器中，但同时大到无法装入RAM，导致它们已经很难打开和检查，更不用说探索或分析了。处理此类数据集时，通常采用3种策略。第一种是对数据进行二次采样，但缺点很明显：你可能因为忽视相关部分数据而错过关键洞察，甚至更糟的是，这会误解了数据所阐释的含义。第二种策略是使用分布式计算

决战大数据之巅：Spark、Dask、Vaex、Pandas的正面交锋

读芯术的博客

07-02

3074

全文共3924字，预计学习时长15分钟图源：unsplash 新的数据科学问题席卷而来时，首要问题是使用何种技术。广告宣传、标准工具、尖端技术、整个平台和现成的解决方案，都是备选项。过去的几年里，笔者尝试使用各项技术来构建概念证明和解决方案。笔者注册试用新平台、试用任何大型云平台发布的新功能。当一项新技术出现时，笔者必然会浏览一些教程并在个人数据集上试用。笔者决定比较各项数据整理技术，以便为下一个项目选择最适合表格式数据探索、清洗和整理的技术。笔者也以此为契机，重新接触了好几年没..

VaExcel:我努力将 Vaex 的数据处理能力带给使用 Panel 的任何人和每个人

05-30

瓦克斯面板 This Repo contains code for Panel Apps that render a DataTable powered by Vaex 第一个名为 VaexDash 的笔记本包含我第一次尝试创建一个利用强大功能的面板应用程序Vaex 加载和过滤数据帧。 Vaex 处理巨大的表格数据，处理速度超过 109 行/秒并即时计算，而不会浪费内存。您可以通过单击了解更多：。加载文件菜单分页数据帧过滤器菜单第二个名为 VaexPanel 的笔记本旨在向 Panel 应用程序添加类似 Pandas 的过滤，并使过滤过程更高效。两者都使用 Panel 来创建应用程序。 Panel 是一个开源 Python 库，可让您创建自定义交互式 Web 应用程序和仪表板您可以通过单击：了解更多。

vaex：适用于Python，ML的核心数据框，以每秒十亿行的速度可视化和探索大型表格数据:rocket:

02-02

什么是Vaex？ Vaex是一个高性能Python库，用于懒惰的Out-of-Core DataFrame （类似于Pandas），以可视化和探索大型表格数据集。它可以在N维网格上以每秒超过十亿（ 10^9 ）的样本/行计算统计数据，例如平均值，总和，计数，标准差等。可视化使用直方图，密度图和3d体积渲染完成，从而允许交互式探索大数据。 Vaex使用内存映射，零内存复制策略和惰性计算来获得最佳性能（不浪费内存）。正在安装随着点： $ pip install vaex 或conda： $ conda install -c conda-forge vaex 主要特点即时打开大量数据文件（内存映射）支持和。从CSV文件，Pandas DataFrames或其他来源。支持结合内存映射的S3惰性流。表达系统不要通过功能设计浪费内存或时间，我们（懒惰）在需要时转换您的数据。核外数据框过滤和评估表达式不会因复制而浪费内存；数据在磁盘上保持不变，仅在需要时才进行流传输。在需要群集之前延迟时间。快速分组/聚合 Vaex实施并行的高性能groupby操作，尤其是

Python秒开100G数据是怎么办到的？

二哥为啥不像程序员？

07-17

3073

Python秒开100G数据是怎么办到的？在这个数据爆炸的时代，我们通常要对海量的数据进行分析，少则几十G，多则上百G，对于这样的数据我们打开都很困难，又该如何分析呢？通常都会采取下面几个方案：对数据抽样；使用分布式计算；使用强大的服务器。本文让我们来了解一个低成本又速度快的方法，使用一个强大的Python库-vaex来实现海量数据的读取和操作。 Vaex是一个开源的DataFrame库，它可以对表格数据集进行可视化、探索、分析，甚至机器学习，这些数据集和你的硬盘驱动器一样大。它可以在一个n

❤️Python【Vaex】保姆式教程❤️

轻窕

09-23

3433

一、Vaex介绍 Vaex是一种更快、更安全、总体上更方便的方法，可以使用几乎任意大小的数据进行数据研究分析，只要它能够适用于笔记本电脑、台式机或服务器的硬盘驱动器。 Vaex是一个开源的DataFrame库，它可以对表格数据集进行可视化、探索、分析，甚至机器学习，这些数据集和你的硬盘驱动器一样大。它可以在一个n维网格上每秒计算超过10亿（10^9）个对象的平均值、和、计数、标准差等统计信息。可视化使用直方图、使用直方图、密度图和3D立体渲染进行可视化。为此，Vaex采用了内存映射、高效的外核算法和延迟计

爱了爱了！0.052 秒打开 100GB 数据，这个Python开源库火爆了！

Oner.wv的专栏

11-18

264

编译|AI科技大本营（ID:rgznai100）许多组织都在尝试收集和利用尽可能多的数据，以改善其经营方式，增加收入和提升影响力。因此，数据科学家面对50GB甚至500GB大小的数据...

vaex安装（windows10)

sheery_sanyuan的博客

12-12

1722

写在前面：很少有教程描述vaex的下载安装，网上看到结论是windows上pip 与conda安装都不成功，自己尝试了一番，可正常使用，记录如下。注：vaex已安装完成，现以spark为例，过程都是一致的。 1、打开anaconda prompt,输入 conda install vaex回车 2 输入anaconda search -t conda vaex 有100个spark包，现需要找出合适的那个，根据提示，输入anaconda show {package_name}..

vaex的安装

yiqian95的博客

12-23

1391

安装vaex 下载安装rustup 网址：https://rustup.rs/ rustup-init.exe程序 pip下载vaex 通过pip下载 pip install -i https://pypi.douban.com/simple/ vaex

Vaex 开源项目教程