开源 6 个月,机器学习平台 Alink 有哪些值得期待的新功能?

本文介绍了开源机器学习平台Alink自开源以来的发展,特别是1.1.0和1.1.1版本的新功能。Alink已发布到Maven中央仓库和PyPI,提供了便捷的安装方式。新版本优化了程序构建、环境安装,增加了PyAlink与PyFlink的整合,以及Kafka的读写支持。此外,1.1.1版本中对枚举类型参数提示和列名参数提示进行了优化,提升了PyAlink的性能和稳定性。
摘要由CSDN通过智能技术生成

本文根据 Flink Forward 全球在线会议 · 中文精华版整理而成,由阿里巴巴计算平台事业部资深算法专家杨旭(品数)分享。本文主要介绍了 Alink 从宣布开源到现在,最近半年来的进展情况,重点分享了 Alink 的一些特性、原理、使用技巧等,为大家使用 Alink 进行开发提供了参考。

Alink进展总览

Alink 到目前已经发布了四个 Release 版本:

  1. Alink version 1.0:2019年11月在Flink Forword Asia大会上宣布开源。
  2. Alink version 1.0.1:于2019年12月发布,主要解决一些场景下PyAlink的安装问题。在此期间也出了一系列的开发文章,包括Alink环境搭建,入门示例等,为大家使用Alink第一步提供了指导。
  3. Alink version 1.1.0:于2020年02月发布,在Flink发布1.10版本后,Alink 第一时间做了兼容,目前Alink支持Flink 1.10和Flink 1.9,PyAlink也兼容PyFlink。此外,从这个版本开始,Alink已经发布到Maven中央仓库和PyPI。这样,Maven工程中使用Alink,只需要在POM文件中引入Alink的相关依赖就可以了,无需自己手动编译,打包安装。Python环境则可以借助PyPI仓库,进行Alink的安装。
  4. Alink version 1.1.1 :于2020年04月发布,主要是提升了使用体验,提升了性能。

Alink 发展之路

上图是Alink在发布1.0版本的时候,所有的算法以及功能,简单来说,Alink的批式功能是和SparkML对应的,SparkML有的功能,Alink基本都提供了。相较于SparkML,除了批式的功能,Alink还提供了流式的功能。

Alink在近半年,功能上整体没有大的变化,下面列举一些正在研发测试,即将开源的一些功能:

  1. 提供更多数据处理,特征工程相关功能,在小版本就会陆续推出。
  2. 经典的分类和回归问题上,主要为两个方面:一是对已有模型,我们将会披露更多模型内部信息,让大家对模型有更多的了解,而不仅仅只是拿模型来进行预测,二是FM系列算法的推出。
  3. 关联规则&协同过滤,在协同过滤推荐问题上,SparkML主要提供的是ALS,它可以解决一些推荐的问题,但是实际运用过程中,仅仅使用ALS是不够的,后续Alink将推出更多推荐类的算法。
  4. 在线学习,在1.0发布的时候,已经提供了在线学习的功能,但在实际应用场景中,用户希望在线学习能够变得更加灵活,后续的版本中将会对这部分进行加强。

重要特性介绍

在本章,将按照版本的发布顺序,逐步介绍Alink的特性,设计原理,以及使用技巧等内容。

1.Alink version 1.1.0

■ 程序构建

从Alink 1.1.0开始,使用Maven中央仓库即可构建Alink项目,下面是POM文件示例。Flink 1.10版本依赖:

<dependency>
    <groupId>com.alibaba.alink</groupId>
    <artifactId>alink_core_flink-1.10_2.11</artifactId>
    <version>1.1.0</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-streaming-scala_2.11</artifactId>
    <version>1.10.0</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-table-planner_2.11</artifactId>
    <version>1.10.0</version>
</dependency>

Flink 1.9版本依赖:

<dependency>
    <groupId>com.alibaba.alink</groupId>
    <artifactId>alink_core_flink-1.9_2.11</artifactId>
    <version>1.1.0</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-streaming-scala_2.11</artifactId>
    <version>1.9.0</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-table-planner_2.11</artifactId>
    <version>1.9.0</version>
</dependency>

■ 环境安装实践

  • 准备环节

主要是Python环境搭建,以及JAVA 8的安装,Python环境的搭建我们推荐安装Anaconda3,可以对Python的版本进行灵活的控制。不同操作系统的环境准备,请参考下面的教程:

MacOS: https://zhuanlan.zhihu.com/p/110898678
Linux环境: https://zhuanlan.zhihu.com/p/110898735
Windows:https://zhuanlan.zhihu.com/p/97020481

  • PyAlink安装

从1.1.0开始,Alink已经发布到了PyPI,安装更加方便了,请参考如下链接:

如何安装最新版本PyAlink?
https://zhuanlan.zhihu.com/p/110944464

  • PyAlink卸载

如果之前安装过PyAlink,因为之前版本我们是手动安装的,在升级到新版本时,可能会遇到一些问题,因此需要将其卸载,可以参考下面的文章:<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值