Alink 是基于 Flink 的机器学习算法平台,欢迎访问 Alink 的 GitHub 获取更多信息。本文主要分享 Alink 的使用技巧之一,如何使用批式 CSV 进行数据读取。
基本操作
我们先下载个 csv 文件用作后面的测试数据。
将数据文件下载到本地,文件路径为 /Users/yangxu/flinkml/data/iris/iris.data,使用文本编辑器打开如下所示,每行为一条数据,每条数据包括4个数值字段和一个字符串字段,各字段间使用逗号分隔。
数据下载
http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
读取本地数据
使用 CsvSourceBatchOp 可以批式读 CSV 格式文件,其必填的两个参数为:filePath 和 schemaStr。filePath 为 CSV 格式文件所在的路径;schemaStr 为数据各字段的名称和类型。关于 Schema String 更多的介绍可以参见:
Alink Schema String简介
https://zhuanlan.zhihu.com/p/103027854
可以使用如下脚本,读取数据,并取前5条数据打印显示出来。
source_local = CsvSource