Alink是基于Flink的通用算法平台,由阿里巴巴计算平台PAI团队研发。Alink提供了批式的功能和流式的功能,包括上图所示的算法和功能。
Alink解决什么问题
PyAlink 的设计背景:
-
在机器学习应用开发过程中,我们经常会先在批式环境进行模型训练,然后在流式的环境应用模型,从批式环境转换到流式环境,往往需要重写代码,无法做到代码的复用。Alink设计之初,就希望尽量将批和流之间的差异变得最小,比如,批上做完后,只需要将Batch字样改成Stream字样就可以运行。
-
机器学习开发的过程,我们一般是希望越快越好,越敏捷越好。其实在本机上开发,体验是最好的,一般做法是,在本机小数据规模上进行验证,然后上到集群上进行效果的评估。但是本机环境往集群环境迁移,并不容易,我们希望这个过程有一个好的体验,不用去编写大量的代码。
对批式和流式定义不清楚的可以参考博客https://blog.csdn.net/buptgshengod/article/details/82752207
如何使用PyAlink
- 安装Python3和Java 8
请参考下面的教程:
MacOS: https://zhuanlan.zhihu.com/p/110898678
Linux环境: https://zhuanlan.zhihu.com/p/110898735
Windows:https://zhuanlan.zhihu.com/p/97020481
- 安装pyalink
可以参考https://zhuanlan.zhihu.com/p/110944464
- 利用jupyter notebook进行调试
可下载github库测试代码https://github.com/alibaba/Alink/blob/master/pyalink/kmeans.ipynb
所有功能的说明文档:https://github.com/alibaba/Alink/tree/master/docs
参考:
- https://mp.weixin.qq.com/s/W8gk78pd0z65PxdTnnxkkQ
- https://zhuanlan.zhihu.com/p/110898735
- https://github.com/alibaba/Alink
- https://blog.csdn.net/buptgshengod/article/details/82752207