- 博客(13)
- 收藏
- 关注
原创 Alink 如何读写 LIBSVM 格式数据?
Alink 是基于 Flink 的机器学习算法平台,欢迎访问 Alink 的 GitHub 获取更多信息。本文主要分享 Alink 的使用技巧之一,Alink 如何读写 LIBSVM 格式数据。LIBSVM 数据格式就是 LIBSVM(csie.ntu.edu.tw/~cjlin/)使用的数据格式,是机器学习领域中比较常见的一种形式。其格式定义如下:<label> <index1>:<value1> <index2>:<value2> ...
2020-08-11 23:44:48 272
原创 Alink 使用技巧:如何使用批式 CSV 数据读取?
Alink 是基于 Flink 的机器学习算法平台,欢迎访问 Alink 的 GitHub 获取更多信息。本文主要分享 Alink 的使用技巧之一,如何使用批式 CSV 进行数据读取。基本操作我们先下载个 csv 文件用作后面的测试数据。将数据文件下载到本地,文件路径为 /Users/yangxu/flinkml/data/iris/iris.data,使用文本编辑器打开如下所示,每行为一条数据,每条数据包括4个数值字段和一个字符串字段,各字段间使用逗号分隔。数据下载http://archive
2020-08-11 20:10:54 451
原创 如何在 Linux、Mac 下定时执行 Alink 任务?
如何使用 Linux、Mac 定时执行 Alink 任务?推荐使用 Linux,Mac 下用于设置周期性被执行的指令 crontab,通过 crontab 来设置定时执行 Alink 任务。crontab 简介crontab 的命令格式为:crontab [-u user] filecrontab [-u user] [ -e | -l | -r ]各命令参数的解释如下:u user:用来设定某个用户的 crontab 服务。f file:file 是命令文件的名字,表示将 file 做
2020-08-10 16:48:08 259
原创 如何使用 Alink 连接 Kafka 数据源?(Python 版本)
本文主要讨论如何使用 Alink 的 Kafka 连接组件(Kafka011SourceStreamOp 和 Kafka011SinkStreamOp)读取写入数据。如何你需要一个本地的 Kafka 数据源进行实验,可以参考我另外一篇文章,详细介绍了搭建 Kafka 及建立 Topic 的过程。在 MacOS 上搭建 Kafkahttps://zhuanlan.zhihu.com/p/100990121在 Windows 上搭建 Kafkahttps://zhuanlan.zhihu.com/p/
2020-08-10 15:24:23 442
原创 Alink 如何连接 Kafka 数据源?(Java 版本)
本文主要讨论如何使用 Alink 的 Kafka 连接组件(Kafka011SourceStreamOp和Kafka011SinkStreamOp)读取写入数据。如何你需要一个本地的 Kafka 数据源进行实验,可以参考我另外一篇文章,详细介绍了搭建 Kafka 及建立 Topic 的过程。在 MacOS 上搭建 Kafkahttps://zhuanlan.zhihu.com/p/100990121在 Windows 上搭建 Kafkahttps://zhuanlan.zhihu.com/p
2020-08-08 15:41:29 410
原创 开源 6 个月,机器学习平台 Alink 有哪些值得期待的新功能?
本文根据 Flink Forward 全球在线会议 · 中文精华版整理而成,由阿里巴巴计算平台事业部资深算法专家杨旭(品数)分享。本文主要介绍了 Alink 从宣布开源到现在,最近半年来的进展情况,重点分享了 Alink 的一些特性、原理、使用技巧等,为大家使用 Alink 进行开发提供了参考。Alink进展总览Alink 到目前已经发布了四个 Release 版本:Alink version 1.0:2019年11月在Flink Forword Asia大会上宣布开源。Alink version
2020-08-07 18:55:10 632
原创 如何实现 DataFrame 和 Alink 批式数据的互相转化?
Alink 提供了 collectToDataframe() 和 fromDataframe() 方法,实现了 DataFrame 和 Alink 批式数据的互相转化。Alink 批式数据 -> DataFrameAlink 的批式数据源或者计算结果,如果能转成 Python 的 DataFrame 形式,则可以利用 Python 丰富的函数库及可视化功能,进行后续的分析和显示。Alink 中每个批式数据源或批式算子都支持 collectToDataframe() 方法,不需要输入参数,返回的结
2020-08-05 16:06:00 208
原创 如何轻松上手 Alink LocalPredictor?
机器学习训练算法比较复杂,往往需要分布式进行,但是训练出来的模型进行预测相对简单很多,一般是单个节点装载整个模型,可以同时有多个预测节点,每个都装载整个模型,从而进行多路预测。很多不依赖模型的数据预处理算法也是这种模式,单个节点可以进行完整的操作,多个节点可以并行处理。使用我们的算法组件直接对批式的数据或者流式的数据进行预测,用户也希望我们能提供 SDK 的方式,即,由参数或模型数据直接构建一个本地的 java 实例,我们称之为 LocalPredictor,可以对单条数据进行预测。这样的话,预测不再必须
2020-08-05 13:39:28 388
原创 如何使用 Alink 进行中文情感分析?
情感分析是对带有情感色彩(褒义贬义/正向负向)的主观性文本进行分析,以确定该文本的观点、喜好、情感倾向。本文将针对顾客对酒店的评论数据,进行建模,并通过模型进行预测。演示情感分析中的常用操作,包括分词,文本向量化,及使用朴素贝叶斯(Naive Bayes)方法进行建模、预测。使用的酒店评论数据集链接为:https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/ChnSentiCorp_htl_all/Ch
2020-08-05 11:33:40 634
原创 Alink 在线学习的 6 个 Java 示例
前面发表了一系列文章介绍如何使用Python进行Alink在线学习(Online Learning),有读者反馈需要Java版本的,虽然这两个版本在算法原理上是一样的,但是在使用的过程中还有很多差异,为了便于读者快速使用Java上手Alink在线学习,本文将以6个示例从Java的角度重写这一文章,希望对大家有所帮助。大家在使用 Alink 过程中有任何问题可钉钉扫描下方二维码进群交流~示例一在线学习(Online Learning)是机器学习的一种模型训练方法,可以根据线上数据的变化,实时调整模型,
2020-08-04 15:31:11 1017
原创 使用 Maven 快速构建 Alink 项目
刚发布的 Alink 1.1.0 版本,支持发布到 Maven Central,Java 开发者通过 Maven 可以快速搭建 Alink 机器学习项目。本文将演示一个简单的构建方案,便于爱好者快速入门。先说一下相关的环境,Windows 系统,使用的 Jave 编辑器是 InterlliJ IDEA(Version 2019.3.2),Java SDK 的版本为 1.8。第一步,创建项目在 InterlliJ IDEA 中选择创建新项目,并选择 Maven,如下图所示:使用默认选项,不用勾选"C
2020-08-04 13:44:47 567
原创 如何在 Flink 集群部署 Alink?
在 Flink 集群部署 Alink,需要部署三个 Jar 包(本文会有一个部分专门讲述如何获取),对于不同 Flink 集群环境,方式有些区别,本文主要讨论 Standalone 集群和 Kubernetes 集群。获取集群部署所需 Jar 包由于 Alink 可以通过 Java 和 Python 两种方式提交,建议在集群部署的时候将相关 Jar 包一起部署上去。Alink 虽然没有单独提供集群部署 Jar 包的下载,但是所需 Jar 包与 PyAlink 所用的相同。所以可以从 PyAlink 的安
2020-07-28 13:07:39 360
原创 开源机器学习平台 Alink 最新版本在易用性上有哪些优化?
2019年11月28日,在 Flink Forward Asia 大会上,机器学习算法平台 Alink 宣布开源,成为众多开发者关注的焦点。今年2月,Alink 1.10 发布,对 Flink 1.10 和 Flink 1.9 提供了支持。近期 Alink 团队持续发力,发布了最新的 Alink 1.1.1 版本,不仅开发了新功能,还对部分已有功能进行了增强和完善。本文将详解介绍 Alink 1.1.1 版本中的新增功能及修复内容,并分享 Alink 1.1.1 在易用性方面的小技巧。版本更新下载及
2020-07-28 12:50:50 320
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人