安装Anaconda3
大家在搜索关键词“windows anoconda”就可以看到相关的安装步骤。
Anaconda网址:https://www.anaconda.com/distribution/#download-section
需要注意的是,由于PyAlink只能运行在Python3以上的版本,Anaconda3自带的Python3.x,所以一定要选Anaconda3
另外,对于较低版本的Windows,安装最新版本的Anaconda3会遇到问题。解决办法是安装较低版本的Anaconda3。譬如对于64位Windows7,可以选择: https://repo.anaconda.com/archive/Anaconda3-2019.03-Windows-x86_64.exe
打开安装界面
一路next,并选择安装位置,安装成功,并打开Anaconda3。
安装Java 8
确保使用环境中安装有 Java 8。
如果没有,请到 https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 选择系统对应的版本下载安装。
安装PyAlink
接下来的操作需要用到Anaconda Prompt命令行工具。可以在开始菜单的Anaconda3程序文件夹下选择。
一、根据 Python 版本下载对应的 pyalink 包。
在Anaconda Prompt中输入
python --version
运行截图如下:
二、在命令行中使用 easy_install
进行安装 easy_install [pyalink包存放的路径]/pyalink-***.egg
。需要注意的以下几点:
-
- 如果之前安装过 pyalink,请先使用
pip uninstall pyalink
卸载之前的版本。 - 如果有多个版本的 Python,可能需要使用特定版本的
easy_install
,比如easy_install-3.7
。 - 通过Anaconda Prompt进行安装,譬如:下载的文件为pyalink-1.0.1_flink_1.9.0_scala_2.11-py3.7.egg,放在D盘根目录,则在命令行中执行
- 如果之前安装过 pyalink,请先使用
easy_install D:/pyalink-1.0.1_flink_1.9.0_scala_2.11-py3.7.egg
三、安装完成后,进行测试:
首先,在完成前面的安装步骤后,需要重启Anoconda。
然后在Anoconda中打开jupyter Notebook
并新建一个Python3 notebook,输入如下python代码
from pyalink.alink import *
resetEnv()
useLocalEnv(1)
source_url = CsvSourceBatchOp()\
.setFilePath("http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data")\
.setSchemaStr("sepal_length double, sepal_width double, petal_length double, petal_width double, category string")
source_url.firstN(5).print()
如果看到这样的运行结果:
恭喜!运行成功了!
安装中可能出现的问题
1、easy_install
过程出现界面停滞或者报错,导致安装不成功的情况。这通常是因为默认Python包的安装源太慢,可以参考这篇文章使用其他源。
2、安装PyAlink后,使用时报错:AttributeError: 'NoneType' object has no attribute 'jvm
。这个报错信息是因为 PyAlink 的 Java 部分没有成功启动导致的:
- 如果是Windows系统,请先检查所安装的PyAlink版本是否
>=1.0.1
,如果不是,请下载最新版本升级。 - 其次检查是否正确安装 Java 8,可以在 Jupyter 中直接运行
!java -version
,如果正确显示版本号(比如 1.8.*)则正常,否则请安装 Java 8,并检查环境变量是否正确。 - 在 Jupyter 中运行
import pyalink; print(pyalink.__path__)
,应该输出一个路径。
请使用系统的文件管理工具定位到这个目录,如果这个目录包含有名为alink
和lib
目录则正常,否则 pyalink 安装有问题,请卸载重装。 - 如果之前安装过Spark,并且报错信息中有spark字样,那么你可能需要使用Python虚拟环境:virtualenv 或者 conda environments。
3、安装PyAlink后,使用时报错module 'pandas' has no attribute 'Int64Dtype'
。这是由于pandas版本过低导致的,请使用pip install --upgrade pandas
来升级(这个问题将在之后的发布中修复)。