Alink是基于Flink的通用算法平台,Alink在github的网址:https://github.com/alibaba/Alink
也可以参照github官方提供的安装指导方式,学习更多的参考官方地址。
1.window10下pyalink的安装
pyalink的安装使用python版本>=3.5,本文的python版本为3.6.5,python3.6版本对应的 pyalink 包的下载地址:
https://alink-release.oss-cn-beijing.aliyuncs.com/v1.0.1/pyalink-1.0.1_flink_1.9.0_scala_2.11-py3.6.egg
下载完成后,使用easy_install命令安装,
# 命令后面为pyalink包的存放目录位置
easy_install pyalink-1.0.1_flink_1.9.0_scala_2.11-py3.6.egg
# 进入python 之后导入模块
python
安装完成以后进入python的交互式环境,import pyalink模块,测试是否会报错,不报错表明pyalink包安装成功。
2.运行官方测试用例
官方提供了几个jupyter notebook的demo可以选择其中一个测试pyalink包的本地运行环境是否搭建完成,github地址:
https://github.com/alibaba/Alink/tree/master/pyalink
本文使用的首页的测试代码,导包之后创建运行本地的环境出现异常:
# 创建本地的运行环境
from pyalink.alink import *
resetEnv()
useLocalEnv(2)
# 读取数据
source = CsvSourceBatchOp()\
.setSchemaStr("sepal_length double, sepal_width double, petal_length double, petal_width double, category string")\
.setFilePath("http://alink-dataset.cn-hangzhou.oss.aliyun-inc.com/csv/iris.csv")
res = source.select("sepal_length", "sepal_width")
df = res.collectToDataframe()
print(df)
异常代码:主要是没有安装java的原因
AttributeError Traceback (most recent call last)
<ipython-input-7-29167b03c190> in <module>
3 import sys,os
4 resetEnv()
----> 5 useLocalEnv(2)
C:\ProgramData\Anaconda3\envs\bigdata\lib\site-packages\pyalink-1.0.1_flink_1.9.0_scala_2.11-py3.6.egg\pyalink\alink\env.pyc in useLocalEnv(parallelism, flinkHome, config)
C:\ProgramData\Anaconda3\envs\bigdata\lib\site-packages\pyalink-1.0.1_flink_1.9.0_scala_2.11-py3.6.egg\pyalink\alink\env.pyc in make_configuration(config)
AttributeError: 'NoneType' object has no attribute 'jvm'
安装java之后重新运行就可以。
环境运行成功的示意图:
数据的打印结果:
注意:安装pylink包之前,要先安装java和python的环境,Flink或者其他包的运行要依赖它们的环境。