如何实现 DataFrame 和 Alink 批式数据的互相转化?

本文介绍了如何使用Alink的collectToDataframe()和fromDataframe()方法在DataFrame和Alink批式数据间进行转化。通过collectToDataframe()将Alink批式数据转换为DataFrame,便于利用Python进行分析和可视化;而fromDataframe()则用于将DataFrame回转为Alink批式数据,确保数据一致性。示例中展示了读取UCI的iris.data并进行转化的过程。
摘要由CSDN通过智能技术生成

Alink 提供了 collectToDataframe() 和 fromDataframe() 方法,实现了 DataFrame 和 Alink 批式数据的互相转化。

Alink 批式数据 -> DataFrame

Alink 的批式数据源或者计算结果,如果能转成 Python 的 DataFrame 形式,则可以利用 Python 丰富的函数库及可视化功能,进行后续的分析和显示。

Alink 中每个批式数据源或批式算子都支持 collectToDataframe() 方法,不需要输入参数,返回的结果就是 DataFrame。注意,该方法中带有 collect 字样,表明其执行过程中会使用 Flink 的 collect 方法,触发 Flink 任务执行。

示例如下,我们使用 CsvSourceBatchOp 读取 UCI 网站的 iris.data 数据。

source = CsvSourceBatchOp()\
    .setFilePath("http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data")\
    .setSchemaStr("sepal_length double, sepal_width double, petal_length double, petal_width double, category string")

然后调用变量 source 的 collectToDataframe() 方法,得到相应的 DataFrame,付给变量 df_iris。

df_iris = source.collectToDataframe()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值