1. java 安装
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
jdk我选择linux x86版本gz
注意安装好后,需要更新/usr/bin/java 软连接为解压后的java
java -version要显示下载后的版本号
2. eclipse 安装
https://www.eclipse.org/downloads/eclipse-packages/
我选择JaveEE版本32位
3. pydev安装
http://www.pydev.org/download.html
参考如下链接完成与eclipse的集成配置
http://www.pydev.org/manual_101_root.html
4. 运行eclipse,执行基本python程序
import sys
print(sys.path)
5. 成功后,再开始与spark集成
https://enahwe.wordpress.com/category/spark/#Configure_PyDev_with_Spark_variables
其实 saprk的environment 不需要配置,只需要添加 spark下面python目录下的libraries就行了
pyspark.zip 和 py4j*.zip 以及 spark/python目录本身
from pyspark import SparkContext
sc = SparkContext()
lines = sc.textFile("hdfs://192.168.0.1:9000/homedir/README.md")
print(lines.count())
此时,eclipse上可以使用python语言,调用spark代码,处理hadoop集群上的文件数据了