Alink如何读写文本数据【Alink使用技巧】

最新推荐文章于 2021-07-15 22:14:24 发布

陈易德

最新推荐文章于 2021-07-15 22:14:24 发布

阅读量305

点赞数

分类专栏： Alink

原文链接：https://zhuanlan.zhihu.com/p/97666263

版权

Alink 专栏收录该内容

30 篇文章 5 订阅

订阅专栏

Alink文本读写组件使用起来非常简单，每个换行符对应一条数据，只需指定文件的路径即可。譬如，我们想看一下iris数据，但不想花时间详细定义其数据列名及类型，就可以将其每条数据简单地看作一行文本，使用TextSourceBatchOp，并设置文件路径的参数。

iris_text = TextSourceBatchOp().setFilePath("http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data")

iris_text.firstN(5).print()

输出结果为：

再举一个例子，在机器学习中经常需要将打好标签的数据拆分为训练集和验证集，由于拆分操作中每条记录的内容没有被改变，我们还是可以将每条记录都看作单行文本，并按文本的方式保存数据集。从而用更简洁的脚本，完成数据拆分的任务。运行脚本如下，SplitBatchOp为数据拆分算子，其参数Fraction即为拆分比例，

spliter = SplitBatchOp().setFraction(0.9)
spliter.linkFrom(iris_text)

spliter.link(
    TextSinkBatchOp().setFilePath("/Users/yangxu/flinkml/data/iris/iris_part1.data")
)
spliter.getSideOutput(0).link(
    TextSinkBatchOp().setFilePath("/Users/yangxu/flinkml/data/iris/iris_part2.data")
)

BatchOperator.execute()

执行完成后，我们还可以通过TextSourceBatchOp，读取打印一下iris_part2.data的数据，检查一下效果。

TextSourceBatchOp().setFilePath("/Users/yangxu/flinkml/data/iris/iris_part2.data").print()

输出结果如下，刚好15条数据，占iris数据集的10%

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

陈易德

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Alink 使用技巧：如何使用批式 CSV 数据读取？

Alink1024的博客

08-11

449

Alink 是基于 Flink 的机器学习算法平台，欢迎访问 Alink 的 GitHub 获取更多信息。本文主要分享 Alink 的使用技巧之一，如何使用批式 CSV 进行数据读取。基本操作我们先下载个 csv 文件用作后面的测试数据。将数据文件下载到本地，文件路径为 /Users/yangxu/flinkml/data/iris/iris.data，使用文本编辑器打开如下所示，每行为一条数据，每条数据包括4个数值字段和一个字符串字段，各字段间使用逗号分隔。数据下载 http://archive

【Alink-Python版本】学习&实践-数据源、数据处理、回归、分类、聚类

风吹海洋浪的博客

03-19

2844

【Alink】学习&实践-数据源、数据处理、回归、分类、聚类Alink学习链接汇总1、数据源读取1.1、读取CSV文件（分批流）1.2、按行读入文件（分批流）1.3、读取Kafka数据（流式）（1）部署单节点kafka（使用kafka中的zookeeper）（2）使用Alink流式写入/读取topic数据解析json数据+sql格式转化2、数据处理（边用边总结）3、回归3.1、线性回归训练（批式）&预测（批式和流式）（1）批式（2）流式4、分类5、聚类数据导出导出CSV文件按行导出到文件导出

参与评论您还未登录，请先登录后发表或查看评论

Alink（4）：Alink中流组件的数据导入

yang_shibiao的博客

07-15

1640

批式CSV数据读取【Alink使用技巧】

jyh2005的专栏

03-09

397

基本操作我们先下载个csv文件用作后面的测试数据。将数据文件http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data下载到本地，文件路径为 /Users/yangxu/flinkml/data/iris/iris.data，使用文本编辑器打开如下所示，每行为一条数据，每条数据包括4个数值字段和一个字符串字...

Alink（2）：Alink使用指南

yang_shibiao的博客

07-15

2564

开源 6 个月，机器学习平台 Alink 有哪些值得期待的新功能？

Alink1024的博客

08-07

627

本文根据 Flink Forward 全球在线会议 · 中文精华版整理而成，由阿里巴巴计算平台事业部资深算法专家杨旭(品数)分享。本文主要介绍了 Alink 从宣布开源到现在，最近半年来的进展情况，重点分享了 Alink 的一些特性、原理、使用技巧等，为大家使用 Alink 进行开发提供了参考。 Alink进展总览 Alink 到目前已经发布了四个 Release 版本： Alink version 1.0：2019年11月在Flink Forword Asia大会上宣布开源。 Alink version

Python正则表达式与文本处理技巧

正则表达式（Regular Expression）是一个强大的文本匹配和处理工具，它可以用于从文本中提取符合某种模式的字符。在Python中，我们可以使用内置的re模块来进行正则表达式的操作。本章节将带你了解正则表达式的基础...

C语言文件操作必知必会：高效读写与错误处理技巧

从简单的文本文件读写到复杂的数据格式解析，C语言的文件操作功能强大且灵活。然而，为了充分利用这些功能，开发者需要深入理解文件指针、文件模式、缓冲机制等概念，并掌握相应的操作技术。本章我们

【SteamOS无线游戏串流】：SteamOS与Steam Link整合使用的终极指南

!...# 1. SteamOS无线游戏串流概述 SteamOS是由Valve公司开发的一个基于Debian Linux的操作系统，旨在为用户提供一个纯粹的游戏体验。随着无线技术的发展，SteamOS搭载的无线游戏串流功能，允许用户将PC上的游戏通过...

【地理数据处理的艺术】：精通django.contrib.gis的空间数据处理技巧

[【地理数据处理的艺术】：精通django.contrib.gis的空间数据处理技巧](https://hackernoon.imgix.net/images/ycBZ74dRuRdxgZuOrWpdHisyNDw2-m0b39xb.jpeg) # 1. 地理数据处理与Django GIS概述在本章节中，我们将...

Alink使用入门，基于flink的机器学习

qq_43001627的博客

03-26

7165

一、什么是 Alink？ Alink 是阿里巴巴计算平台事业部PAI团队从 2017 年开始基于实时计算引擎 Flink 研发的新一代机器学习算法平台，提供丰富的算法组件库和便捷的操作框架，开发者可以一键搭建覆盖数据处理、特征工程、模型训练、模型预测的算法模型开发全流程。借助Flink在批流一体化方面的优势，Alink能够为批流任务提供一致性的操作。在实践过程中，Flink原有的机器...

Alink漫谈(七) : 如何划分训练数据集和测试数据集

罗西的思考

06-12

1957

Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台，是业界首个同时支持批式算法、流式算法的机器学习平台。本文将为大家展现Alink如何划分训练数据集和测试数据集。

如何使用 Alink 进行中文情感分析？

Alink1024的博客

08-05

634

情感分析是对带有情感色彩（褒义贬义/正向负向）的主观性文本进行分析，以确定该文本的观点、喜好、情感倾向。本文将针对顾客对酒店的评论数据，进行建模，并通过模型进行预测。演示情感分析中的常用操作，包括分词，文本向量化，及使用朴素贝叶斯(Naive Bayes)方法进行建模、预测。使用的酒店评论数据集链接为： https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/ChnSentiCorp_htl_all/Ch

Alink中文情感分析示例（Java版本）

jyh2005的专栏

03-10

1011

Alink在线学习(Online Learning)示例【五】—完结篇

jyh2005的专栏

03-10

631

基于前面几篇的准备工作，我们已经具备了初始模型、流式向量训练数据、流式向量预测数据，如下图蓝色节点所示。接下来，我们会进入该系列文章的关键时刻，演示如何接入FTRL在线训练模块及对应的在线预测模块。 FTRL在线模型训练的代码如下，在FtrlTrainStreamOp的构造函数中输入初始模型initModel，随后是设置各种参数，并“连接“流式向量训练数据。 # ftrl train ...

在Linux，Mac下定时执行Alink任务

jyh2005的专栏

03-09

125

Alink连接Kafka数据源（Java版本）

jyh2005的专栏

03-09

821

本文主要讨论如何使用Alink的Kafka连接组件（Kafka011SourceStreamOp和Kafka011SinkStreamOp）读取写入数据。如何你需要一个本地的Kafka数据源进行实验，可以参考我另外一篇文章，详细介绍了搭建Kafka及建立Topic的过程。 Alink品数：在MacOS上搭建Kafkazhuanlan.zhihu.comAlink品数：在Windo上搭建Kafk...

Flink中的侧输出流SideOutput使用场景

星空的风fly

09-13

4688

一、SideOutput流作用侧输出流有两个作用：（1）分隔过滤。充当filter算子功能，将源中的不同类型的数据做分割处理。因为使用filter 算子对数据源进行筛选分割的话，会造成数据流的多次复制，导致不必要的性能浪费（2）延时数据处理。在做对延时迟窗口计算时，对延时迟到的数据进行处理，即时数据迟到也不会造成丢失二、SideOutput使用示例 @Data class OrderLog { private String orderId; private String skuI

Alink如何读写Libsvm格式数据【Alink使用技巧】

jyh2005的专栏

03-09

257

LIBSVM数据格式就是LIBSVM（https://www.csie.ntu.edu.tw/~cjlin/libsvm/index.html）使用的数据格式，是机器学习领域中比较常见的一种形式。其格式定义如下： <label> <index1>:<value1> <index2>:<value2> ... 第一项<label...

深入解析Alink插件的核心功能与应用

资源摘要信息:"Alink插件是一个通用的数据处理和分析工具包，它支持高并发处理和流式计算。Alink基于Flink构建，旨在提供一套简洁、易于理解的API，使得开发者可以方便地构建和部署各类机器学习和数据挖掘任务。A...