其方法是将DataFrame作为桥梁,分两步实现的:
- 首先,Python Pandas提供了几种途径,可以在代码中直接输入数据,并构建DataFrame
- PyAlink提供了DataFrame到SourceBatchOp的转换
示例如下,首先import pandas,然后定义一个包含String及整数类型的二维数组,并将其转化为DataFrame.
import pandas as pd
arr_2D =[
['Alice',1],
['Bob',2],
['Cindy',3]
]
df = pd.DataFrame(arr_2D)
然后使用BatchOperator的fromDataFrame方法,将前面定义好的DataFrame类型变量df作为第一个参数,后面的参数用来定义数据的列名与类型,使用SchemaStr格式,即列名与其类型间用空格分隔,各列定义之间使用逗号进行分隔。对应脚本如下:
BatchOperator.fromDataframe(df, 'name string, value int').print()
在上面脚本的最后部分,是对转换得到的Alink BatchOperator数据源执行print方法,显示数据的内容如下: